1427 H

PREDIKSI KECENDERUNGAN KONSUMEN DALAM MEMILIH JENIS KENDARAAN (RODA EMPAT) RERDASARKAN SPESIFIKASI KENDARAAN MENGGUNAKAN Decision Tree DENGAN METODE Gini

Mahbllblll Wathoni

PROGRAM STUD! MATEMA TIKA JURUSAN MIPA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGI~RI SYARIF IDDAYATULLAH JAKARTA 2006 M /1427 H

PREDIKSI KECENDERUNGAN KONSUMEN DALAM MEMILIH JENIS KENDARAAN (RODA EMPAT) BERDASARKAN SPESIFIKASI KEN]JIARAAN MENGGUNAKAN Decision Tree DENGAN METODE Gini

Oleh: rvwmuBuL WATHONI

102094026456 "["l lJ I~

Skripsi Stbagai Salah Salu Syaral untuK Memptrolch Gdar Smjana Sains

Fakultas

S~ins

dan Teknologi

Uniwrsitas Islam Neotri SvarifHidavatullah Jakarta b '" . '"

PROGRAM STUDI MATEMATIKAJURUSAN MIPA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI SYARIF HlDAYA1ULLAH JAKA.RTA 2006 M / 1427 H

Perumpamaan petunjuk dan ilmu akan ditulis Allah untuk membawanya laksana air hujan yang sangat lebat menyirami bumi, diantara tanah (bumi) itu terdapat tanah yang layak menerima air, kemudian menumbuhkan pepohonan dan rerumputan yang banyak. Ada pula ada tanah yang keras, sehingga dapat rr.enampung air, sehingga t'mah semacam ini memberi manfaat kepada manusia. (H.R. Bukhari dan Muslim dari Abi Musa) Al Fathul Kabir, Jilid lH,h,133

PREDIKSI KECENDERUNGAN KONSUMEN DALAM MEMILIH JENIS KENDARAAN (RODA EMPAT) BERDASARKAN SPESIFIKASI KENDARAAN MENGGUNAKAN Decision Tree DENGAN METODE Gini Skripsi Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Sains Pada Fakultas Sains dan Teknologi Universitas Islam Negeri SyarifHidayatuIlah Jakmia

Oleh: Mabbllblll Watboni 102094026467

Menyetujui,

Pembimbing II

Pembimbin I

/2ft

Taufik Edy Sufan 0, M.SeTech NIP. 150377 447

Dr. Agns Salim, M.Si NIP. 150294451

Mengetahui, Kelua Jurusan MIPA

Dr. Agus Salim, M.Si NIP. 150294451

PROGRAM STUm MATEMATIKA JURUSAN MIPA FAKULTAS SAINS DAN TEKNOLOGI UIN SYARIF HIDAYATULLAH JAKARTA

Dengan ini menyatakan bahwa skripsi yang ditulis oleh : Nama

Mahbubul Wathoni

NIM

102094026467

Program Studi

Matematika

Judul Skripsi

Prediksi Kecenderungan Konsumen Dalam Memilih Jcnis Kcndaraan (Roda Empai) Bcrdasarkan Spesifikasi Kendaraan Menggunakan Decision Tree Dengan Metode Gini.

Dapat diterima sebagai syarat kelulusan untuk memperoleh gelar Sarjana Sains pada Program Studi Matematika Jurusan MIPA, Fakultas Sains dan Teknologi UIN Syarif Hidayatu!lah JakaJta.

Jakarta, 19 Novcmber 2006 Menyetujui, Dosen Pembimbing Pembimbing 2

~(;:Z

Dr. Agus Salim, M.Si NIP.. 150294451

Mcngctahui,

Dekan FakultasS,' s dan Teknologi

Ketua Jurusan MIPA

~M" NIP. 150294451

PENGESAHAN UJIAN

Skripsi yang berjudul "Prediksi Kecenderungan Konsumen Dalam Memilih Jenis Kendaraan (Roda Empat) Berdasarkan Spes[jikasi Kendaraan Menggunakan Decision Tree Dengan Metode Gini.". Telah dinji dan dinyatakan lulus dalam sidang munaqosyah Fakultas Sains dan Teknologi, Universitas Islam Negeri Syarif Hidayatullah JakaIia, pada had Jum'at 17 November 2006, Skripsi ini telah diterima scbagai salah satu syarat untuk mempcrolch gclar sarjana strata satu (S I) pada Program Studi Matematika Jurusan MIPA,

Jakarta, 19 November 2006

Tim Pcnguji,

Penguji 1

Pcnguji 2

Suherman, M.Si

l'fur Inayah, S.Pd, M.Si NIP. ISO 326 911

Mcngctahui, DekaIl F:lkullta"~1i'ns dan Teknologi

h Ja a Putra M.Sis

. NIP. 150 317 965

PERNYATAAN

DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-BENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN SEBAGAI SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI ATAU LEMBAGA MANAPUN.

Jakarta, 19 November 2006

~~~ Mahbubul Wathoni 102094026467

ABSTRACT

The world of business has always been full of competitions. The executors think relentlessly of the way to get survived. Fortunately. in the modem business world, there is valuable data warehouse that could be utilized to generate new knowledge to help the executives in arranging their business strategies. The knowledge generator. which is data mining technology. would be introduced to the readers. This paper presents the business problems to be solved and th,e foundations of data mining: the usage, how data mining works. the tasks, and the popular methods (decision tree. classification.). The result shows tendency of a consumer to buy heir favorite vehicle in the reality is not influenced by purchasing level of the costomer, but from its this finding Support the hypothesis that Indonesian people do prefer brand than of her factors.

Keywords: Data Mining, Decision Tree, Algoritma CART, Product Marketing

ABSTR-\K MAHBUBUL WATHONI, Prediksi Kecenderungan Konsumen Oalam Memilih Jenis Kendaraan (Roda Empat) Berdasarkan Spesifikasi Kendaraan Menggunakan Decision Tree Ocngan Mctodc Gini. (Oi bawah bimbingan TAUFIK EDY SUTANTO, M.ScTech. dan Dr. AGUS SALIM, M.SL). Oalam dunia bisnis yang penuh persaingan membuat para pelakunya harus selalu mcmikirkan stratcgi-stratcgi tcrobosan yang dapat mcnjamin kclangsungan bisnis mereka. Salah satu aset utama yang dimiliki oleh perusahaan masa kini adalah data bisnis dalam jumlah yang banyak. Hal ini melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkannya untuk membangkitkan "pengetahuanpengetahuan" baru, yang dapat membantu dalam pengaturan strategi bisnis. Teknologi data mining hadir sebagai solusi. Skripsi ini akan mengulas pcrmasalahan bisn;s yang ada dan dasar-dasar desicion tree melalui bahasan kegunaan, cara kerja dan metodologi-metodologi populer pada teknologi ini (pohon keputusan, klasifikasi, regresi), Desicion tree yang digunakan adalah Classification and Regression Trees. Dari pengolahan Dat.a PT. OTO MULTIARTA yang merupaksn dat"! dari tahun 2004 sampai 2005 dinyatakan bahwa, kencenderungan seorang konsum.;n ulltuk mcmbcli kcndaraan yang diinginkan tcmyata bukanJah dipcngaruhi olch tingkat pembelian seorang konsumen (harga). Hal ini mcmpertegas dugaan pandangan di masyarakr ptang sifat konsumen di Indonesia.

Kata Kunci : Data Mining, Decision Tree, Algoritma CART, Pemasaran Produk

KATA PENGANTAR

Puja dan puji serta syukur saya panjatkan kehadirat Allah SWT. Atas segala karuniyanya hingga penulis dapat menyelesaikan skripsi ini. Shalawat serta salam keeintaan hanya tereurahkan kepada junjungan Nabi besar Muhammad SA W. Semoga kita semua mendltpatkan syafaatnya baik didunia maupun diakherat kelak. Amin. Atas izin Allah SWT disertai denga'l usaha yang maksimal penulis dapat menyclesaikan skrips! ini. Meskipun demik!an, !)cnulis s"dar bahwa rlalam mengerjakan skripsi ini p<:nulis banyak dibantu oJeh berbagai pih&k. O!eh karena itl! pada kesempatan ini ;Jenulis ingin mengneapkan terima kasih yang sebGsarbesamya kepada : I.

Bapak Dr. Syopiansyah Jaya Putrlt, M.sis. Dekan Fakultas Sains dan Teknologi.

2.

Bapak AgllS Salim. M.Si. Ketua Jurusan MIPA sekaligas dosen pembimbing II

dan penasehat akademik penulis. Terima kasih alas

nasehat d:m bimbingan selama saya kuliah di Fukultas Sains dan Teknologi Jurusan MIPA Program Studi Matematika. 3.

Bapak Taufik Edy Sutanto, M.SeTeeh. Dosen pembimbing I. Penulis mengueapkan terima kasih alas bimbingan yang telah bapak berikan.

4.

Ibu Nur Inayah, S.Pd, M.Si. Ketua Prodi Matematika yang telah memberikan bimbingan den saran-saran daIam penyusunan skripsi penulis.

5.

Seluruh dosen Jurusan MIPA Program Studi Matematika yang sudah mengajarkan ilmu-ilmu yang bermanfaat bagi penulis selama penulis kuliah.

6.

Seluruh staf akademik dan Lab Pusat Lab Terpadu Fakukltas Sains dan Teknologi diantaranya Pak Agus Budiono, Pak Aminn, Pak Ade Candra, Pak Edi. Pak Yusuf, Pak Hari Satria, Pak Gunadi, Bu Opah, Mba Fitroh dan semuanya yang tidak dapat penulis

s~butkan

satu-persatu, yang

dengan sabar melayani masalah administrasi mahasiswa

Ju~usan

MIPA

Program Studi Matematika khususnya penulis sendiri. 7.

Ibu dan Bapak serta Kakak-kakaku yang tercinta juga seluwh kc!uarga besarku yang selalu membcrikan do'a dan scmangat yang tiada hCl1tinya.

8.

Teman-te;nan mahasiswa Matematika angkatan 2002 khususnya Andi Nur Rahman, Hata Maulana, Bambang Ruswandi, M. Farid Fr,

Sopirizal,

Munaqin. Maya Destia, Haryani Chotijah, Indri, Maya, Cie-eie, Bulan Oktrima dan teman-temanku lainnya yang tidas dapat penulis sebutkan satu persatu. 9.

Teman-teman mahasiswa Matemati:,a angkatan 2003, 2004 dan 2005 yang senantiasa memberikan dorongan moril kepada penulis. Penulis menyadari bahwa masih banyak kelemahan dan kekurangan yang terdapat dalam skripsi ini, yang masih harus diperbaiki. Akhir kata penulis berharap semoga skripsi iili dapat bemlanfaat bagi kita semua. Jakarta, 18 November 2006 Penulis

DAFTARISI

Halaman HALAMAN JUDUL..

.

KATA PENGANTAR

.

ii

DAFTAR lSI

.

iv

DAFTAR TABEL

.

vii

DAFTAR DIAGRAM

.

viii

DAFTAR LAMPlRAN

BAB l. PENDAJ-lULUAN 1.1.

Latar Belakang

1.2.

Perumusan Masalah

1.3.

IX

. . ..

3

Tujuan Penelitian

.

3

1.4.

Manfac.t Penclitian

..

3

1.5.

Pembatasan Masalah

.

4

BAB II. KONSEP DAN DEFINISI

..

5

2.1.

Deffinisi Data Mining

..

5

2.2.

Teknik Data Mining

..

7

2.3.

Tahapan Data Mining

..

9

2.3.1. Association Rule Mining

.

9

2.3.2. Klasifikasi

10

2.3.2. Regresi

13

2.3.4 Clustering

14

2.4.

Decision tree

2.5.

Classification and Regression Trees (CART) ..

'"

\5 17

BAB 111. METODOLOGI PENELlTIAN 3.1.

19

Pengolahan Data .,

29

3.1.1. Proses Screening Data....

19

3.2.

Data yang diperlukan

3.3.

Pengolahan Data....

26

3.3.1. Pendeiinisian Masalah

26

3.3.2. Mengerti dan memperkirakan kualitas data.

27

3.3.3. Pengeksplorasian data

3.4.

'"

25

,.................

27

3.3.4. Pemilihan teknik pennodelan

27

3.3.5. Persiapan data untuk permodelan

28

3.3.6. Evaluasi model......................

28

Proses pengolahan data untuk mengetahui pola yang tersembunyi. 28

BAB IV. ANALISA DAR! SCREENING DATA BASE

30

4.1. Proses Pembentukan Model Untuk Mengetahui Pola Yang Tersembunyi

,.....................

4.2. Proses pengolahan data

32

4.2.1. Proses model system bahan bakar/fule system............... 4.2.2. Model laku (banyaknya yang terjual)

30

..

33 39

4.2.3. Model kathasil(harga yang dipilih oleh kOllsumcn)

43

4.2.4. Modeljkendaraan Genis kendaraan)

/...............

48

.

53

BAB V KESIMPULAN

5.1.

Kesimpulan

53

5.2.

Saran........................................................................

54

DAFTAR PUSTAKA

57

LAMPlRAN

59

DAFTAR TABEL

Halaman

'label 3.1.

........................................................................... 21

Tgbel32.

.

22

Tabe: 3.3.

.

23

'label 3.4.

.

24

Tabei4.1.

.......................................................................... 37

T"beI4.2.

.

42

'label 4.3.

..

46

T?beI4.4.

...................................................................... 50

DAFTAR DIAGRAM Halaman

16

Gambar 2.1. Gambar 3.1

,

27

Gambar 4.1.

35

Gambar 4.2.

36

Cambar 4.3.

41

Gambar 4.4

_.....................

44

Gambar 4.5.

45

GamlJar4.6.

49

GamlJar 4.7.

49

DAFTAR LAMPIRAN

Halaman

Lampiran I Perubahan ni!ai kategorik harga kendaraan..........................

58

Lempirc:n 2 Daio. PT. OTO l\1CLTIARTHA

63

Laml'iran 3 Pcngidisialan Variabel

67

BABI PENDAHULUAN

1.1.

Latar Belakang Masalah

Teknologi komputasi dan media penyimpanan

tel~h

memungkinkan

manusia untuk mengcmpulkan dan menyimpan data dari berbagai sumber dengan banyaknya data berskala besar. Pada bidang pemasaran produksi kendaraan roda empat saat ini, persaingan di beberapa industri tidak terlepas dari pemanfaatan kemajuan teknologi

infonn~si

d~Iam

pemasaran disebuah

perusahaan, salah satunya pemanf.'Ultan teknologi sistem

membantu kegiatan

penjualan

d~n

database[l]. Database perusahaan yang meliputi proses pen,iuulan dan pemasarar., pada saat ini belum dirasakan mar,faatnya seeara optimal oIeh pihak PT. OTO MUlTIARTHA untuk daput digunakan dalam mengambil keputusan. Dengan menggunakan teknik dalam Data Mining, peneIitian ini berusaha untuk membantu pihak PT. OTO MULTIARTHA dalam menentukan strategi dan solusi keputusan yang cocok dalam meningkatkan pelayanan dan mempertahankan pelanggan. Pe'111asalahan lainnya yang dihadapi oleh pihak PT. OTO MULTIARTHA yaitu bagaimana

mempertahankan

mengeluarkan

biaya tinggi

pelanggan

yang

telah

ada

dengan

tidak

Customer Relation Manager (CRM). Untuk

mengurangi biaya tinggi akibat menurunnya daya pembeJian konsumen, maka dilakukan pemodelan dengan menggunakan Metode Gini untuk menganalisis dan

memprediksi pelanggan mana yang paling besar kemungkinal1nya untuk mcmbcli scbuah kendaraan roda cmpat dengan karakteristik kcndaraan tertentu. Pengertian Data Mining digunakan untuk mendefinisikan suatu proses pencari'ln otomatis terhadap infonnasi yang menarik dan berguna dalam suatu basis data yang dititik beratkan pada pencmuan pola yang sulit atau bahkan tidak mungkin dilakukan dengan mekanisme query database standar [2]. Classification Data Mining adalah salah satu tipe Data Mining yang bertujuan untuk menemukan pola k!asifikasi variabel-variabel yang

memprediksi suatu variabel target.

Pendekatan ini dapat digunakan untuk memprediksi respon konsumen terhadap pengadaan kendaraan roda empat di Perusahaan OTO MT JLTIART!-IA. A!goritma CART telah I&ma digunakan untuk tujuan raemoentuk suatu

Decision Tree dalam rangka penemuan pola klasifikasi variabel [3]. Learning sample digunakan untuk membentuk model tree dengan menggunakan algorilmd oemisah tertentll yang akan memis&hkan learning sample menjadi dua subgmp

(node) ,ceara rekursif atau bertingkat hingga ;neneapai terminal node (leaf). Mdihat tun,utan dan kebutuhan sumber daya manusia Sallt ini, Perkembangan Data Mining

yang

san~at

pesat tidak terlepas dari perkembangan teknologi

infonnasi yang memungkinkan data dalam jllmlah besar dapat terakumlilasi. Sebagai eontoh, PT. OTO MULTIARTHA yang menyimpan data pada setiap penjualan kendaraannya. Database penjualan tersebut adalah sebuah penjualan yang berskala besar, Tetapi pertumbuhan yang pesat dari akllmlilasi data itu telah meneiptakan kondisi yang sering diistilallkan sebagai "rich of data but poor of

i'iformation [4]" karena data yang terkllmpul itu tidak dapat digllnakan untuk

aplikasi yang berguna, tidak jarang kumpulan data itu dibiarkan begitu saja 3c~kan-akan sebuah

1.2.

kuburan data.

Perumusan Masalab Pennasalahan yang akan dikaji dalam penelitian ini adalah :

I.

Penearian

infonnasi

sebanyak

mungkin

dari

data.base

PT.

OTO.

MLTLTlARTHA. 2.

Penentuan variabel-variabel prediktor yang sangat berpengaruh dan dapat mempengaruhi variabel target tertentu.

1.3.

Tujuan Penelitian Tujuan pengola;lan database dengan menggunakan pendekatan data

mining adalah: 1. Mer.getahui infonnasi-informasi penting yang terkandung dalam kumpulan

data

di PT. OTO 'I1ULTIARTHA guna mendukung

kebij~kan

yang akan

diambil perusahaan atau konsumcn. 2. Mengetah:.:i predik'tor-prediktor terpenting ya,lg berpengaruh terhadap suatu variabel target guna mendefinisikan program kerja perusahaan.

1.4.

Manfaat Penelitian Manfaat pengolahan database dengan menggunakan pendekatan data

mining dapat digunakan untuk mengambil suatu kebijakan yang tepat berdasarkan informasi-infonnasi penting yang didapatkan dari kumpulan data yang bennanfaat

baik bagi produsen maupun konsumcn pada umumnya. Dan Icbih khusus lagi digunakan pada ?T. eTC' MULTIARTHA.

1.5.

Pembatasan Masalah Tugas

akhir

ini

hanya

mcmbahas kasus

pada data

PT.

OTO

MULTIARTHA dengan menggunakan metode gini dan pohon kasifikasi pada aplikasi CART (Classification and Regression Tree).

BABII DEFINISI DAN KONSEP

2.1.

Definisi Dllla Mining

Data Mining (OM) adalah proses yang menggunakan berbagai perangkat (tools) anal isis data untuk menemukan pola dan hubungan dalam data yang ';1Ungkin dapat cigunakan untuk membuat prediksi yang valid. Seringkali

dap~!

ditemukan peagertian OM adalah salah satu bidang yang

berkembang pesat karena besamya kebutuhan akan nilai tam bah dari database skala besar yang malin banyak terakumulasi sejalan dengan pertumbuhan teknologi infcrmasi [7J. Oefinisi Uffium dari OM itu sendiri menurut Mohammad Sugeng Haryoro [7] adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan )'~ng

sela.na ini tidak diketahui seeara manual dari suatu kumpu!an data.

O~lam

review ini, penulis meneoba merangkum perkembangan terakhir dari teknikteknik OM beserta implikasinya di dunia bisnis. Pengertian mining sendiri berarti usaha untuk mendapatl:an sedikit barang berharga dari sejumlah besar material dasar. Oleh karena itu OM sebenamya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent) [5J, machine learning, statistik dan database.

Langkah pcrtama dan paling scdcrhana dalam c1ata mining yaitu menggambarkan data dan menyimpulkan atribut statistik (scperti rata-ra;3 dan standar deviasi), mereview seeara visual menggunakan diagram dan grafik, serta mencari relasi berarti yang potensial antar variabel (misalnya nilai yang sering muncul bersamaan) [10]. Mengumpulkan, meng-eksplor, dan memilih data yang tepat adalah sangat penting.

Menurut [10], pada dasarnya ada empat langkah utama c1alam melakukan data

mining: I. Mendeskripsikan data, yakni menyimpulkan atribut statistik (seperti rata-rata clan standard deviasi), mereview secara visual menggllnakan grafik dan diagram, serta mencari h!.!bungan-hllbllngan potensial antar variabel (seperti misalnya, nilai-nilai yang seringkali keluar bersamaan). 2. Membangun model perkiraan (predictive model) berdasarkan pada pola-pola yang ditemukan pada langkah sebelumnya. 3. Menguji model di luar sampel asH. Sebllah model yang baik tidak harus sama persis dengan kenyataan sebenarnya (seperti peta bllkanlah rf'presentasi sempurna dari jalan yang sebenamya), akan tetapi bisa meqjadi panduan yang berguna untuk mengerti bisnis kita. 4. Memveriflkasi/menguji model. Misalnya, dari suatu database pelanggan yang telah merespon tawaran yang pernah diiklankan kepada mereka, kita membangun sebuah model perkiraan yang memiliki prospek akan mendapat respon yang sama dari pelanggan dengan tipikal tersebut.

Tapi bisakah kita benar-benar bergantung pada perkiraan kita tersebut? Kita perlu membuk1ikan model perkiraan kita tersebut ke sample pelanggan yang lain dan melihat hasil yang kita dapalkan. Untuk melakukan hal tersebut diatas maka setidaknya dibutuhkan suatu program yang dapat menampilkan (kalau tidak mendeteksi) pola dan keteraturan dalam data sehingga pola-pola yang kual atau sangat jelas terlihat dapat digunakan untuk melakukan prediksi[ I0].

2.2.

Teknik Data Mining

Dengan definisi Data mining (OM) yang luas, acla banyak jenis teknik an~.Iisd

yang dapat digolongkan dalam OM. Beberapa

digunakan

clalam

literatur Data mining (OM)

teknik ant'lra

yang lain:

sering

Clustering.

Cia>sification. Association Rule Mining. Neural NetlVork. Genetic Algorithm dan lain-lain. Dalam hal ini pcnulis menyajikan pengertian konfigurasi penyimpanan data yang memudahkan pemakai untuk melakukan OM yang umum disebut dengan data warehouse [4]. Data warehouse adalah kumpulan terpadu data perusahaan, yang dapat diakses oleh business managers. administrators. service providers & researchers yang berhak untuk menganalisis data tersebut. Karena OM adalah suatu ,angkaian proses, maka OM dapat dibagi menjadi beberapa tahap yaitu

l. Pelllbersihan data (Screening data). untuk membuang data yang tidak jelas, dengan demikian data tersebut dapat dikonfirmasi kepada pemberi data

(diem) 2. lntegrasi data (penggabungan data dari beberapa sumber) 3.

Tran~forl1lasi

data (data diubah menjadi bentuk yang sesuai, untuk digunakan

dalam metode DM yang dipilih) 4. Aplikasi teknik DM berdasarkan metodenya 5. Evaluasi

pola

yang

ditemukan

(untuk

menemukan

intormasi

yang

menarik/bemilai) 6. Prtse:ltasi pengetahua:1 (den;;an teknik visualisasi). Tahap-lahap tersebut, bersifat interaktif dimana pemakai dapat terlibat jangsUl~g.

Biasanya perusahaan-perllsahwn memakai datahase dalam operasi

sehari-hari s"p"rti pencatatan transaksi jual-beli, administrasi pengiriman barang, inventori. penggajian dan sebagainya. yang lazim disebut dengan OLTP (online

IrcnsaCliun processing) [4]. Dei,gan makrn besamya kebutuhan akan analisa data ur.tuK mempertahankan keunggulan dalam k0mpetisi, banyak perusahaan yang juga membangun database tersendiri yaug khusus digunakan untuk menunjang proses penga'l1bilan keputusan (decision making) atau lazim juga disebut dengan OLAP (online analytical processing).

2.3.

Tahapao Data Mining Tahapan Data Mining digunakan untuk mendefinisikan suatu proses

pencarian informasi yang menadk dan berguna dalum suatu dala yang dililik beratkan pada penemuan pola yang sulit atau bahkan tidak mungkin dilakukan dengan mekanisme query standar. Pada sistem data base dapat digunakan :

2.3.1. Association Rule Mining Association rule mining adalah teknik mining untuk menemukan aturan assosialif anlar;; sualu kombinasi i!em f6j. (omoh dari aluran assosiatif dad analisa

p~il~belian

di SUall< per:lsahaan penjualan mobil adalah dapat diketahui

berapa b"sar kemung;"inan (possibility) dan sesecrallg membeli mobil bersamaan dengan asuransinya. Dengan pellgetailUan oari hai yang

di~ta>

l"rsebul. pemilik perusahaan

penjualan mobil dapat mengatur pengambilan asuransi atau P.1erancang kampanye r:emasaran dengan

ffie;n~kai

potongan harga untuk sualu mobil tertentu. Penting

tidaknya Sl'atu aturan assosiatif dapat diketahui dengan dua parameter support yaitu persentase dari sualu data. Algoritma

yang

digunakan

untuk

memecahkan

masalah

dalam

menganalisa suatu pennasalahan adalah Apriori dengan paradigma generate and

test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah item tersebut memenuhi syarat support minimum (7]. Kombinasi item yang memenuhi syarat tersebllt disebllt frequent itemset. yang nantinya akan dipakai untuk membuat aluran-aturan yang memenuhi syaral

confidence minimum. Makalah ini membahas perbandingan kinerja dari dua perangkat lunak data mining untuk menemukan pola asosiasi dari suatu basis data. Perangkat lunak yang pertama didasarkan pada metode yang berbasis pada gmf asosiasi, sedang perangkat lunak yang kedua didasarkan pada penempan metode dimensi fraktal, untuk keterangan lebih lanjut tentang hal ini dapat dibaca di [15]. Untuk memperoieh satu set pola asosiasi, pengguna dari kedua perangkat lunak harus mcnspesifikasikan item-item pada masing-masing perangkat lunak. Pada perangkat lunak yang didasarkan pada graf asosiasi, kualitas pola asosiasi yang dieari hanya didasarkan pada p2rameter minimum support dan minimum confidence. Confidence (kepercp.yaMI) dari slietu aturan asosiasi adalah suatu nilai persentase yang menunjukkan bagail1lana atur"n terjadi

ant~r

semua kelompok,

dan nilai kepercayaan menandai adanya aturan nilai yang lebih tinggi [11]. Meski dari sumber yang sama [11] hasil kaj ian perbandingan terhaclap kinerja dari kcdua perangi
2.3.2. Klasifikasi Klasifikasi &dalah proses untuk menemukan model atau fungsi yang merlielaskan atau membedakan konsep atau kelas data. Pada data klasifikasi, data

dipasangkan pada sebuah kelas label tertentu. klasifikasi mcmbentuk sebuah model yang nantinya digunakan untuk melakukan prediksi kelas label pada data baru yang belum pernah ada sebelumnya. Misalnya pada aplikasi email spam filtering, data email dipasangkan pada class label "spam" dan "bukan spam". Kemudian dibentuk sebuah model yang dapat menentukan sebuah email baru. Jadi. data classification memiliki dua tahap yaitu: pembentukan model, dan penggunaan model lersebul untuk prediksi kelas label data baru. Model yang dihasilkan biasa disebut claSSifier. Terdapat banyak sekali leknik dan pendekalan yang digunakan dalam data classification, sebUI saja

decision tree, bayesian classifier, rule-cased classifier, neural lIetwork, support vector machine (SVMj, associative classification, nearest neighbor, f!.
pal/em recognition, dan statistic dengan luj<Jan untuk dapal memperkirakan kelas dar: suatu objck yang labelnya tidak diketahui. Model itu

s~ndiri

bisa bcmpa

aluran 'jika-maka", yang berupa decision tree, formula maU,matis atau neural

network. Umumnya salu variabel bersifal sebagai suatu fungsi dari variabel lainnya. Hal inl mengakibatkan nilai dari variabel targel dapat ditentukan dari nilai yang diberikan oleh variabel lainnya yang disebut dengan variabel predihor. Y merupakan variabel target dan X adalah variabel prediktor denganjumlah variabel sebanyak p variabel yang dinotasikan dengan XI, ., " Xp • Dalam model prediksi, persamaan dari model tersebut biasanya berbentuk Y = f(X1"",X p ;e) dengan Y

adalah hasil prediksi model dan j:ka ;.

&~alah

e menunjukkan parameter model. Menurut [14]

variabel kategorik maka pemetaan dari X ke Y disebut dengan

klasifikasi. Variabel kategorik merupakan variabel yang nilai-nilainya hanya bersifat mengkelas-kelaskan objek yang saling terpisah. Berdasarkan skala pengukurannya, variabel kategorik dapat diklasifikasikan menjadi variabel berskala nominal dan variabel berskala ordinal (16].

J. Skala Nominal

Angka-angka yang disajikan pada skala nominal hanya sebagai nama penggolongan. Angka tersebut tidak mengukur besaran telapi hanya sebagai lambang. Disini, angka I tidak lebih besar dad pada 0

be~itll

pula 0 tidak lebih

keeil daripada L Misalkan pemberian kode J pada merek mobil BMW dan 0 pada merek mobil AUDI tidak berarti bahwa BMW mempunyai nilai satu dan AUDI mempunyai nilai

HOI.

Angka-angka tersebut ha'lyalah kode untuk membedakan

antara BMW dan AUDI, dengan demikian kitajuga bisa menllkar AUDr menjadi

odan BMW menjadi I tanpa merubah maknanya.

2. Skala Ordinal Seperti halnya pada skala nominal, angka-angka yang disajikan hanya sebagai

nama

penggolongRn.

Perbedaan

dengan

skala

nominal

adalah

penggolongan pada skala ordinal telah membentuk suatu tataan. Pada skala ini ada yang dianggap tingkat terendah dan tertinggi. Walaupun dernikian jamk antara dua angka atau penggolongan yang berurutan tidak perlu sama. Misalkan pada

tingkatan penjualan , kendaraan murah dibcri angka I, scdang diberi angka 2, mahal diberi angka 3.

d~n

San;;3t mahal diberi angka 4. Penjualan yang

berkualitas didapatkan dari penjualan murah, tetapi kualitas p,:njualan dari mahal tidak berarti dua kaJi lebih berkuaJitas dari pada penjualan murah.

2.3.3. Regresi Perbedaan mendasar antara klasifikasi dengan regresi terletak pada jenis variabel targetnya. Menurut [16] jika variabel targetnya merupakan variabel kategorik maka disebut

denga~

klasifikasi namun jika variabel targetnya bempa

variabel numerik maka disebut regresi yaitu pemetaan dari X, ....., X o ke Y dengan persamaan Y=f(X" .... xp:e). Pe~sama"n

va~iatel

regresi dapat tcruiri dari satu variabel prediktor dan satu

tar;;et atau beberapa variabel prediktor dengan satu variabel target,

persamaan yang penama disebut persamaan regresi sc:derhana. Contohnya adalah hubungan antara keillarga dengan anggota keJuarga, dalam contoh

terseb~lt

yang

menjadi variabel target adalah angguta keluarga dan variabel predik'tomya adalah keluarga. f'ersamaan kedua disebut regresi berganda contohnya adalah hubungan antara variabel prediktor tingkat pendidikan. pendapatan dan jumlah anak terhadap variabel terikat pengeluaran konsumsi keluarga. Regresi linear adalah persamaan regresi yang menggambarkan hubungan antara satu variabel predik'tor (X) dan satu variabel target (Y), dimana hubungan keduanya dapat digambarkan sebagai suatu garis lurus. Sehingga menurut [I]

hubungan kcdua variabel tcrsebut dapat dituliskan dalam bentuk pcrsamaan berikut: I'

...( I)

Y=ao+"'aX L J J j"'l

Dimana

e ={ao, ...• a

p

}

adalah parameter dari model persamaan regres!.

Jika .i = I maka persamaan I disebut dengan persamaan regresi linear sederhana. Jika .i > 1 maka persamaan 1 disebut dengan persamaan regresi linear berganda.

2.3.4. Cluslering Berbeda dengan associalion I1lle mining dan classificalion dimana kelas data telah ditentukan sebelumnya, cluslering (pengelompokan) banyak digunakan unruk memisahkan dan melakukan pengelompokan data tanpa herdasarkan kelas data pacta suatu variabel target tertentu. cluslering dapat juga dipakai untuk memberikan label pada kelas data yang belum diketahui. Oleh karena itu

cluslerfng sering digolongkan sebagai metode unsupen-ised learning. Prinsip dari cluslering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/clu3ler yang terbentuk[J4]. Banyak algoritma cll'slering memerlukan fungsi jarak untuk m0ngukur kemiripan antar data, dan normalisasi bermacam atribut yang dimiliki data [13]. Beberapa algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukanjumlah k partisi yang di inginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah

metodc

hierarki

yang

tcrbagi

mcnjadi

dua

bOl/om-up

yang

mcnggabungkan clusler kecil mcnjadi clusler Icbih bcsar clan top-down yang mcmccah chisler besar menjadi clusler yang lebih keci!. Kelemahan

;ne~ode

ini

adalah bila salah salu penggabungan/pemecahan dilakukan pada lempal yang salah, lidak dapat diperoleh cluster yang optimal [13].

2.4.

Decision tree Decision tree melakukan partisi terhadap learning sample yaitu kumpulan

data terdahulu sebelum dikelaskan unluk semlla observasi menjadi bagian yang lebih kecil [12]. Setiap partisi hanya didasarkan pada variabe! lunggal yang dipilih dari learning sample. Algoritma Class!{Jcalion And Regression Tree (CART) akan mencari variabel dan semua nilai yang mungkin bertujuan untuk menjadi pemisah terbaik. Proses pemisahan tersebut dilakukan pada setiap hasil pembagian data atau node pada treenya.

Decision Iree adalah cara merepresentasikan kumpulan aturan yang mengacu ke suatu nilai atau kelas[12]. Misalnya kita bisa mengklasifikasikan SU8(U

proposal pinjaman uang memiliki resiko baik atau buruk dengan menelusuri

model treenya. Gambar 2.1 memperlihatkan decision tree secierhaTla: decision

node, branches and lem'es.

Income> $ 40,000

N/

'~s

Job> 5 Years

High Debat

Ye~NO

Yes/~~o

Good Risk

Bad Risk

Bad Risk

Good Risk

GambaI' 2.1 Decision tree sederhana untuk menentukan resiko pengaman oieh cusfomer

Komponen pertama adalah simpul top decision, atau simpul rOOI, yang menentu~an

test yang akan dijalankan. Simpul rOOT dalam cantoh ini adalah

"income> $40.000". Hasi! dari tes ini menyebabkan tree terpecah menjadi dua

cabang, clengan tiap cabang mepresentasikan satu dari jawaban yang mungkin. Dalam kasus in!, jawabannya adalah "ya" dan "tidak", sehingga kita mendapatkan dua cahang. Bergantung pada algoritma yang digunakan. Tiap simpul bisa memiliki dua atau lebih cabang. Misalnya, CAR f akan meng-generate hanya dua cabang pada tiap simpul. Tree seperti inl disebut binmy tree. Ketika lebih dad dua cabang diperbolehkan maka disebut sebagai mllltiway tree. Tiap cabang akan memiliki simpul node yang lain atau dasar tree. yang disebut leaf Dengan mengikuti decision tree kita bisa memberikan nilai pada suatu kasus dengan memutuskan cabang mana yang akan diambil, dimulai dari simpul root dan bergerak ke bawah sampai leaf Dengan menggunakan metode

ini, scorang manager, yang bcrtanggungja\\ab untuk memutuskan apakah scorang konsumen dapat membeli sebuah kendaraan dengan prediksi memiliki resiko kredit yang baik atau buruk. Model decision tree umum digunakan dalam data mining untuk menelaah data dan menginduksi tree dan aturan yang akan digunakan untuk membuat prediksi. Sejumlah algoritma yang berbeda bisa digunakan untuk membanguntree di antaranya adalah CHAID (Chi squared Automatic Interactin Detection), CART

(Classification and Regression Trees), Quest dan CS.O. Decision tree

be~kembang

melalui pemecahan iteratif dari data ke dalam

grup-gi'UP diskrit, yang tujuannya adalah untuk memaksimalkan 'Jarak" antara grup pada ti~p pemecahan. Contoh yang kim gunakan pada penelitian ini sederhana. Tree ini mudah untuk dimclIgcrti dan d;jnielpretasikan. Akan tetapi, tree bisa menjadi sangat kompleks. Sebagai contoh kompleksi!us suatu tree yang diturunkan dari database d'cngan

ratu~an

atrib:.Jt dan

va~iabe!

respon dcngan lusinan kelas input. Tree

sej)crti ini akan sangat sulit untuk dimengerti, meskipun tiap path dari tree lJiasanya dapat dimengerti. Dalam hat ini decision tree bisa rnenjelaskan prediksinya, yang merupakan keuntungan penting. Akan tetapi, kejelasan ini bisa jadi menyesatkan.

2.5 Classification and Regression Trees (CARl) Clas.I'lication And Regression Tree (CART) adalah metodologi klasitikasi yang menggunakan data terdahulu untuk membangun decision tree. Kemudian

decision tree tersebut digunakan untuk meng-kelaskan data banJ.

Dalam membangun decision free, Classification And Regressio/l Tree (CART) menggunakan learning sample yaitu kumpulan dat, terdahulu sebelum dikelaskan untuk semua observasL CART merupakan alat decisio/l tree yang baik untuk data mining, pemodelan prediksi dan pengolahan datI. CART seeara otomatis mencari polapola dan hubungan yang pe:1ting yairu membuka struktur yang tersembunyi meskipun datI yang digunakan memiliki kompleksitas tinggi. Metodologi CART dike;)a] sebagai parrisi binary rekursif Binary karena proses pemode!an melibatkan pe;nba8ia'1 kumpulan datI mer:jadi dua subgroup (atau /lode). Reku~sif

"arena "roses Giuiar:g untuk setiap penghasilan /lode. Basil model

biasanya dilampilkali sebagai diagram pohon. Diagram pohon ini membagi semua data menjadi kumpulall dari beberapa subgroup atIu node sehingga perk iraan dari jawaban mendct-ati nilai aktual dari jawaban da!am setlap node. Kemudian CART mengatur semua variabel penting sehingga jumlah prediil.1ot' yang mendapatkan :1:lai tidak nol re!atif ked!.

BABIH METODOLOGI PENELITIAN

3.1.

Pengolaban Data

3.1.1. Proses Screening Data

Screening data adalah sebuah proses yang dilakukan untuk mengetahui terdapat nilai yang hilang (missing value), kesalahan ketik, Wilier, penentuan variabel yang akan digunakan, dan sebagainya. Terkadang dalal11 melakukan proses screening data, transfarmasi data dilakukan c:ntuk merubah data bemilai numerik, menjadi kategorik. Pada pembentukan model, learnjag sample yang digunakan ahn dipisah menjadi menjadi ciua subgmp (node) secara rekm-sif atau bertingkat hingga mencapai lerminal node (lcu/) dCllgan rl'enggiJuakan algcritma pemisah tcrtentu[7]. Dalam peneliti8.n ini algoritma p.emisah yang akan diballas adalah aturan pemisah Gini (Gini splitTing rule) yang digunakan dalam classtfication tree. Pertumbuhan Iree dari learning sample akan menghasilkan level suatu tree yang paling besar atau disebut dengan tinggi tree. Dibandingkan dengan model tree yang lainnya tree tersebut memiliki jumlah terminal node yang paling banyak. Tree paling besar seperti ini disebut dengan maksimum tree. Database saat ini baleh jadi berkembang menjadi sangat besar secara cepat ke dalam ukuran gigaby1e. Di dalam tumpukan data tersebut mungkin terdapat

informasi-informasi tersel11bunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Hal ini sulitnya l11enel11ukan sebuah jarum dalam tUl11pukan jerami? Dalal11 hal ini dapat kita katakan bahwa semua data belum berarti infonnasi. Pengolahan sebuah data terlebih dahulu haruslah melalui proses screening data agar dapat diketahui variabel-variabel mana saja yang memiliki missing value. [17 J Penggunaan SPSS untuk melakukan screening dab agar data tersebut dapat di olah kedalam program CART (Classification dan Regression Trees). Penggunaan SPSSuntuk melakukan screening data agar data tersebut dapat cii lakukan dalam mcngolah kc dalam program CART (Classification dun Regression Trees). Dari data tersebut akan diketahui variabel-variabel apa saja yang berpengaruh terhadap data yang ada, antara lain (tabel 3.2, 3.3, dan 3.4)

I

Tabel 3.1. Contoh data yang akan di screening dengan mengglmakan sofwere SPSS rnrkmobi!

I bbakar I

sid

Ibpinll jkendara 1~lokrne3lOIS; Ipan~ lebarlting!

turbo

tv,,/(1

h.lchba

f','.o'd

flont

959

11') ",":1 , , ) .<-

rrul';utll rnitsubl

go,

Eld

S!?;d8n

f'Nd f,Yd

front front

963 9E.3

17:24

std

four fout'

s&ljan

985

r(ll!subl

(las

turbo

four

sedan

f'Nd fyd

front

ftont

96.3 9E3

1724 172.4

f~'E. .d

flem!

9~1.5

165.3

f·yd

front

945 166.3

front

S.~

front

rriltsubl

9

8S

t"flitsubl

gas

std

four

sedan

nl5san

gas

t1.I>l(1

t"llss.;n

dl8B81

std std

tv·)!)

sedan sl?:dan

n15Sf:!1l

gas gas

5td

tlNO

sedan

std

four

s~dan

f'Nd f·/o.'d

gas 9 as

e,td

fOUl

front

std

tv.JD

\I"'lagon s8dan

f'Afd

nissan

fvvd

front

fH:·San

gas

e,td

tlJVO

halo:hba

gd';

s,:d

f,)lIl"

s8dan

f'Nd fNd

front front

nlSSCin nl~,S8n

nl·::·Sdtl

.5 94.5 945 945 94.5 945

172,4

G53 654 G54 65.4 G54 636

50

52 52 52

52

55 55 l33.o 55 133.8 b'=' 63.a 54 6-)-' ..... ':- 55 GO:' 0

.... L.

1G53 155,3 171J2 1&5.3 5~i 165.6 r-'r, J').O 5f, 1£,5.3 133 :3

berat ljmesinl

29J5 01"1(: 2365 otic 2405 ohc 2403 DilL: 2403 ohc 188'3 ;'017 1916 1938

ohc

uhe: ohc: ohc:

2024 ohc 195·1 c.hc 2028 ahc: 197·1 ,:,h(;

Data yang akan digunakan untuk discreening dengan menggunabn sonvere SPSS [16], memiliki 24 variabel diantaranya adalah Madein (pembuatan kendaraan). MrYJDobil (merek mobil), Bbakar (Bahan baker), Eksmcsin (pcnggunaan mcs;n). Bpintu (banyaknya nintu), Jkendara (jenis kendaraan), K.rit (kriteria mesin), Loknle~in

(likasi mesin), Jmes;;] (jenis mesial, Cylinder (banyaknya cylinder).

Sbbfsyst (sistem bahan bakar full system),

l'~athasil

(kategorik nilai harga), l'e;ljuala

(kategorik dari laku), Laku (normalisasi penjualan), Umesin (ukuran mesin), Symbol (symbol), Torsi (jarak/torsi rada), Panjang (panjang body kendaraan), Lebar (lebar body KenJaraan), Tinggi (tinggi body kendarqan), Berat (berat kendaraan), Rasio (rasio kompresi mesin), Hp (tenaga kudalbhp), Harga (harga jual kendaraan). Dalam proses screening akan dilakukan uji frekwensi, untuk mengetahui nilai yang hilang (missing Valuc).Hasil dari proscs scrccning data tcrscbut dapat dilihat pada tabcl3.2, 3.3~

dan 3.4.

Tabel 3.2. Hasil Screening Peng

Negara

merek

N

Pembuatan

mobil

Valid

204

204

Missing

0

0

Tinggi

Berat

Rasio

Tenaga kuda

Kendaraan

Kompresi

BHP

204

204

204

204

204

u

0

0

2

0

Mean

53,749

2555,60

10,15

104,22

256,36

Median

54,100

2414,00

9,00

98,00

171,00

Mode

50,8

2385

9

68

1234

Std. Deviation

2,4249

521,%1

3,961

39,810

246,587

15,848

1584,851

60805,118

5,8801 272443,098

Range I

12.0

2578

16

2&0

Maximum

60,3

1488

7

48

Sum

13447.0

521343

2074

21053

Minimum

I

Keterangan: Dari Tabel 3.2. diketahui missir maka data tersebut haruslah dik Sehingga akan didapatkan data

Harga

I

2285 91

-

5229!.-.

Tabel 3.3. Produksi Pembuatan kendaraan berdasarkan negara pell1produksi

Negara Valid

Total

amerika mggns jepang Jennan korea perancIs swedia

Frekwensi 25 5 93 36 21 13 11 204

Persen 12.5 2.5 45,6 17.6 10.3 6.4 5,4

100,0

Valid I1ersen 12.5 2,5 45,6 17,6 10.3 6,4 5,4 100,0

komulatif Persen 12,3 14,7 60,3 779 , 88.2 94,6 100,00

Pada tabel 3.3 diketahui bahwa : dianlara banyaknya produksi kel1daraan roda empat saat ini, produksi penjualan kendaraan terbanyak adalah dari Negara Jepang karena ll1ell1punyai trekuensi paling besar seban;'ak 93.

Tabel 3.4. Banyaknya konsumen memilih kendaraan berdasarkan merek .,'-

Valid

Merek audi bmw chevrolete daihatsu honda hyundai

Frekuensi

lSUZU

jaguar kia land rover mazda mersedez b~ mitsubishi nissan opel peugot reilault suzuki toyota volkswagen volvo

I

total

Persen 3,4 3,9 1,5 2,5 6,4 6,9

7 8 3 5 13 14 17 8,3 3 1,5 7 3,4

"

LO

4 2,0

9 13 18 4

4,4 6,4 8,8 2.0 11 5,4 ') 1,0 9 4,4 32 15,7 12 5,9 11 5,4 204 100,0

Komulatif Valid Persen Persen 3,4 3,4 3,9 7,4 1,5 8,8 2,5 11,3 6,4 17,6 6,9 124 ,5 8,3 32,8 1,5 34,3 3,4 37,7 1,0 38,7 2,0 40,7 4,4 45,1 6,4 51,5 8,8 60,3 2.0 62.3 5,4 67,6 68,6 1,0 4,4 73,0 15,7 188 ,7 5,9 5,4 100,0 100,0

~

Dari TabeJ 3.4. dapat diketahui banyaknya penjualan didominasi oleh kendaraan Toyota dengan persentase 15,7%.

3.2.

Data yang dipcrlukan Penelitian ini menggunakan data sekllnder yang diperoleh dari PT. OTO

MULTIARTHA, data yang diambil pada tahun 2004 tersebut memiliki 22 variabel, 204 record.

Dalam pengolahan data, metode gini digllnakan untuk lI1engolah dan mencari informasi dengan indeks gini yang didefinisikan sebagai gini ( t ) =

L: Pi (I - Pi ) ,

dimana p, adalah frekuensi relatif (ditentukan dengan membagi juml<:h kelas pengamatan dengall total j umlah pellgamatan) dari kelas i pada node t, dan node t menUl~ukkan

parent node amu child node yang memisahkan data. Indeks gini adalah

penguKur impurity untuk node maksimum yang diberikan ketika semua pengamatan didistribusikan ke semua kelas. Secara umum, aturan pemisahan gini berusaha untuk mencari kategOli homogenitas yang paling besar dalam data dan mengiso!asikannya dari sisa data. Sub barisan node kemudian dipisahkan dengan cam yang sarna sampai tidak mnngkin nntuk dibagi [8]. Menurut [9] Indeks gini untuk nilai variabel target binary yaitu i (t ) =

2.P (lit). p (211)

Dimana: t adalah node pohon. P

V It) adalah probaiIitas dari kelas ke-j pada node t.

i = Indeks gini setelah memisahkan node t yaitu,

i(s,1)

= i(t) -

PI .i(tl) - P,.i(l,)

dimana PI' P, merupakan pecahan kasus dalam leaf kiri (kanan),

3.3.

Pengolahan Data

Dalam melakukan proses data mining ada beberapa tahap yaitu : 3.3.1. Pcndctinisian masalah Pendefinisian masalah sangatlah penting karena kita dapat melakukan penggalian data untuk mencari informasi yang penting dan dapat mengetahui suatu pC!TIlasalahannya contoh : 1. 'v1en.:ntukan bauyaknya prediktor yang dapat mempengaruhi target. 2. Memilih kelas mana saja yang dapat mempengaruhi dari informasi tersebut. 3. Menentukan metvde yang digunak:m dalanl pengo!a.'1:m data, metode yang digunakan dalam penelitian ini adalah metode gilli. 4. !'lasil yang diperoleh dari pengolahan data berupa Classification Tree, dan dapat ciijelaskan menurut kelas-kelasnya,contoh dari Classification Tree dapat dilihat pada Ganlbar 3.1.

Gambar 3.1. Contoh Tree Classification 3.3.2. Mengerti dan memperkirakan kualitas data Data yang didapat harus dimengerti dan dipahami terlebih dahulu agar dapat melakukan langkah selanjutnya serta memperkirakan kualitas data yang dlperoleh agar hasil infoITllasi yang akan didapatkan menjadi baik 3.3.3.

Fenge~~splorasian

Pencarian

daw

kemungkinan

terdapatnya

hubungan-hubungan

yang

saling

berpengaruh antar variabe!. Variabel yang secara teod saling berhubungan dapat digunakan untuk memperoJeh infoffi1asi sebanyak-banyal!.nya dari data yang digunakan. 3.3.4. Pemilihan teknik pemodelan Teknik data mining yang akan digunakan adalah tc!mik berdasarkan decission tree.

3.3.5. Persiapan data dan pembentukan model Persiapan data yang dilakukan meliputi pembersihan data (membuang data yang tidak konsisten), deskripsi masing-masing varia be!, integrasi data (penggabungan data dari berbagai swnber), transformasi data (clata diubah menjacli bentuk yang sesuai untuk di analisa). Moclel dapat dibangun setelah dilakukan persiapan data yang akan digunakan, maka langkah selanjutnya adalah membangun sebuah model untuk mengetahui tingkat ketepatannya 3.3.6. Evaluasi model Model yang kurang infonnutif harus die.,/aluasi kembali agar didapatkan model ycng lebih infoffilatif dan mortel-model yang telah dihasilkan dapat dikombina~ikatl

3.4.

sehingga mendapatkan informasi yang kbi h baik lagi.

Proses pengolahan data untuk meilgetahui pala yang tersembunyi

Stlatu perusahaan dapat menerapkan aplikasi yang menjanjikan kCWlggulan kompetitif melalui pengelolaan pelangilan yang lebih baik. Penerapan teknologi infonnasi (TI) di sebuah perusahaan penjualan kendaraan telah menjadi kebutuhan mutlak penerapannya, tidak hanya untuk komunikasi dan transaksi, melaillkanjuga untuk pemasaran. Dalam menentukan informasi pelanggan untuk tingkat layanan yang pantas diberikan, serta menawarkan produk yang sesuai. Kita telah mengetahui bahwa data mentah (raw data) biasanya tidak terlalu berguna karena ukurannya yang begitu besar sehingga sulit untuk

dianalisa. Kita perlu mengekstrak pola dad data mentah tersebut dengan teknik data mining. Banyak instansi / perusahaan di dunia telah menggunakan data mining untuk mencari dan menarik kesimpulan dari data yang mereka miliki. Berikut beberapa contoh aplikasi data mining:

•

Perusahaan pemasaran menggunakan data sejarah respon pembelian terhadap suatu tawaran produk yang dapat membangun model untuk memperkirakan pelanggan potensial yang akan eli raih dengan metode p~nawaran

•

tertentu [18].

Agen pemerintah menyaring elatil transaksi keuangan untuk mendctcksi money launctering elan vnye!undupan obat terlarang (18].

•

Dalam tahapan

diagnosi~,

para fisikawan membangun expert system

berdasar1.:an b"nyalz pcrcJbaan yang tcbh dilakukan [! 8]. Sebuah data digunakan sebagai pencarian dari pengolahE!ll dengan menggunaka.!1 program CART Dalam sebmIt data, akan dikelahui banyaknya variansi konsumen lliltuk memiiih sebuah kenelaraan foda empat. Set;ap konsumen memiliki selcra yang berbeela-beda diantaranya, didapatkan sebuah pengklasifikasian, dimana variabel target akan dipengaruhi oleh beberapa variable prediktor. Dalam algoritma diutas tersebut kita akan mengetahui prediktor-prediktor mana yang sangat mempengaruhi variable target. Dalam pengolahan data akan di dapatkan hasil dar! sebuah variable target, dimana variable targetnya aelalah merek kendaraan dimana konsumen biasanya membeli kendaraan berdasarkan merek kendaraan.

BABIV ANALISA DARI SCREENING DATA BASE

4.1.

Proses Pembentukan Model Untuk Mengetahui Po12, Yang Tersembunyi Data yang akan diguanakan adalah data dari PT. OTO Multiaratha yang

diambil atau di kalkulasikan dari penjualan pada tahun 2004 sanlpai dengan 2005. Data tersebut mempunyai 24 variabel dimana banyaknya reeord/kasus ada sebanyak 204 kasus. Data yang akan diolah memiliki 24 vari:::bel Jiantaranya 14 variabel kategorik (string) dan 10 variabel numerik. Keterang.'n lengkap tentang ','ariabel y11fig ada dapat dilihat pada Tabel lampiran 3. Di dalam variabel harga Yi\ag bcmilai fiUiGErik

akan dirubah menjadi

kategorik agar lebih mudah untuk melakukan uji sebuah model. Dalam menggUl~akan metode CART nilai y:wg numerik Jiruba f] menjaJi kategorik agar dapat dik1asifil:asikan dengan baik, dan Japat memberkian suatu informasi yang dapat memberikan kepuasan kepada konsumen. Dalanl menentukan perubahan numerik menjadi kategorik, kami menggunakan metode Quartit, dirnana

dalam merubah

vari'.lbel harga tersebut dibutuhkan metode Quartil agar nilai numerik dapat dirubah menjadi nilai kategorik. Jumlah record dari harga akan dibagi menjadi empat yaitu QI, Q2, dan Q3. Dengan WI kami kategorikan sebagai interval harga murah, W2 sedang, W3 mahal dan W4 sangat mahal. Dalanl pengolaharl data tersebut, j umlah

record dari variabel harga terdiri dari 204 nilai numerik, akan diubah menjadi 4 nilai kategorik interval.

Da!am melakukan screening data diketahui banyaknya record dari harga tersebut adalah 204 data. Unluk menentukan QI, Q2, dan Q3 akan kila gunakan rumus :

[I]

Q, = ~ + c

4'

.r,

[I] -·n-F

~n-F

, Q, = L, + c

4

j,

[I

~n-F.

2

, Q3 = L3 + C

4

.,

.f,

~I

Keterangan : : 1.2,3 Li

: tepi bawah kelas !martil bawah Qi

n

: ukuran data (jumlah frekwensi)

f,

: trekwemi pada interval kclas kuarti! bawah Qi

fi

: frekwensi kumulatif sebt'lum kdas kuartil bawah Qi

Nilai dari Q tersebut akan di gunakan untuk menentukan batasan WI, W2, W3, dan W4. yang mcnghasilkan: WI = 91 sampai dengan 138 juta

= Mmah

W2 = 140 san1pai dengan 170 juta

=

W3 = 172 sampm dengan 275 juta

= Mahal

Sedang

W4 = 277 san1pai dengan 2376 juta = Sangat Mahal

Dalam proses perubahan nilai harga dari nUl11erik l11enjadi kategorik ini akan mel11permudah dalal11 proses pengolahan data l11enggunakan Program CART, terutama dalam pembentuk.:n mode! Classijica/wn /ree-nya.

4.2. Proses Pengolahan Data

Dalam menentukan suatu variabel target, peneliti biasanya menean-ean variabel mana saja yang baik dan dapat dial11bil infonnasi yang sebanyak banyaknya untuk dapat diketahui variabel target tersebut dipengaruhi oleh variabel variabel lain (prediktor) mau tidak . Variabe! target dapat dipengaruhi oleh variabel prediktor dan dapat menentukan infonnasi apa saja yang dihasilkan dari modd tersebut. Pada 24 variabel dari tabel lan:piran 3 tersebut, banyak variabel yang kurang tepat unmk dijadikan variabe! target, karena variabe! o:argd banyak yang tidak berhubungan seeara teuri dengan variabel predlktomya. maka hanya almn diambil bebe,aprr v::aiabel saJa untuk Jijadikan sebagai target yang dapat diambil

informasinya. Diantara 24 variabel target tersebut yang haik untuk diambil infonnasinya adalah variabel Sis/em Bahan Bakor/Fuel Sis/em, laku(banyaknya yang /erjual),

Ka/hasi(harga yang dipilih aleh konsumen), Jkendaraan(jenis kendaraan) karena untuk mengurangi hubungan antara variabel target dan prediktor. Dalam proses pengolahan data terdapat empat target diantaranya model dari

sis/em bahan bakar, Laku (banyaknya yang teIjual). Ka/hasil (Harga yang dipilih

oleh konsumen), Jkendaraan (jenis kendaraan yang banyak di beli oleh konsumen) akan dilakukan proses pembuatan model, agar didapat infonnasi yang sesuai,

4.2.1. Proses Pemodelan Sistem Bahan Bakar/Fuel System

Dalam model yang pertama, dapat kita jadikan Sistem Bahan Bakar/Fuel System menjadi variabel target dan prediktomya yang mempengaruhi variabel target adalah Panjang, Lebar, Ukuran mesin, Torsi, Tinggi, Rasio, Hp (house power), Berat jcnis kcndaraan tcrscbut. Dalam pengolahan Model yang pertama, akan kita gunakan metode Gini. Dalam meclentubn model, dapat diketahui setiap System Bahan BakarlFuel System kendaraan mcmpunyai prediksi bennacam-macam, diantaranya : •

disel,

•

ecGS (ECCS, Multi-Point Fuel Injection),

" en (Electronic fuel inje..:tioin), •

msi (Multipoint Sequeutial Injection),

•

feem (Fully Electronic Engine Management),

•

hpcrdit (High Pressure Common Rail Direct Injectioll Turbo Diesel) ,

•

icimulti, ifis (Electronic Fuel Injection System),

•

micpro (Electronically (Microprocessor) Controlled Direct Diesel Injection),

•

mpfi (Multi Port fuel Injection),

•

mpi (Multi Point I11jection),

..

pgmfi (Programmed Fuel Injection),

..

Mi (Mechanical Injection),

..

vanos (Variable Camshaft Control).

Dari tree di bawah ini akan di(00

._._---_._.... _._.

Nod< UMESI W=10 -N(;j';:e""'5--LEBAR W=23000 N=23 Node 6 Terminal :INGGI Node 3 W= 14.000 W=9.000 N= 14

Terminai", T8rrdnal

_*

Node 1 Node 2 W=8000 W=6.000

:JIJl:Il~

-_._ __

__

.....

-

--_._~

.

Node 20 BERAT W=65.000

N=' ._ -----

N=65

._---

Node 24 TOI RASIO W' W=31.000 ~ N= 3.1~ Terll1lnai'-Noel-e 25 !---_.Node4 JMESIN W=2.000 N=13.000 N=13 -I_.-

J

"t1Ode26-

Node':!] 3CRAT W= 18.000 N=18 "NOde28-l'erminal TORSI Node 27 W= 17.000 W= 1.000

-!!..=.E-

Dalanl node 1 dapat dilihat m( kecii Dalam oktimaml tree, terbentt'eda-beda dalam analisis dari Sistem Bal

~~

TORSI W= 12.000 N=12 ~ Terminal Terminal Terminal Terminal I~ode 23 Node 24 Node 25 Node 26 W=4.000 W=8.000W=15.000W=2.000

F TIfIIIII

Terminal Nvde28 W= 10000

'1IIF

N

iO

Terminal" Node 29 W=5.000

...

Hal tersebut dipengaruhi oleh Gambar 4.1. yang akan mempengaruhi gains chart dari nilai rata rata 10 % data, maka akan diketahui 100 % dari kelasnya Gaim: Chart

I tOO

" 20

sohc: learn Gains

Lift

Cum Lift

Tot
Percen( of :>arnple: 2.94

Gambar 4.2. Gaint Cart Sistem bahan bakar dengan kelas SOHC

F~da

gambar 4.2. dapat ditabel data digolongkan dalam kelompok jenis kendarlian

wenggunakan sistem p~mbakaran SOHC berada pada Node ke-l, G::mbar dan diagram gains chart mell1perlihatkan bahw2. model tree yang dihasilkan l11el11iliki persentase kUl11ulatif kelas target lebih besar dari pada persentase kumulatif dari populasinya sehingga model tree ini dapat dikatakan suatu model yang dapat merepresentasikan kelas SOlIC yang digunakan oleh konsumen.

Hal tersebut dipengaruhi oleh variabel yang mempengaruhi target dibawah ini (Tabel 4.1.) :

Tabe! 4.1. Val"iabcl Importance dad Sistcm Bahan Balmr

TORSI Ui'vlESIN

EERAT LEBAR TINGGI RASia PAN~ANG

HP

100,00 89,28 82,76 80.8 ] 175 ,28 73,00

1~9, 19 64,79

1111111111]111111]1111 IIIIIIIIII IIII]]IIII]I]II;]III;I llIIlIIli 111]1]1111]1]]]1111111 IIIIIIII ]1]1111111111111111111 1Il1I11 1111111]111]11111111111 IIIII] IIII111l]IIIIIIIIIIIII IIIIl 1:IIIIIIIIIIIIIIIIIII]1 III] 1111111!!11111111111]1 II

Vanabel prediktor yang memp"ngaruhi variabe! target

'.'ariabel yang sangat mempengaruh dari variabel target adalah torsi, dimana dalam target sistem bahan bal,:3r, torsi sangatlah berpengaruh dalam menentukan tipe bahan bal~ar yar.g

layak digun2.kal1. dU!:lm sebuM! kel1.daraan.

Pada variabel sistem bahan bakar, variabel yang sangat mempengaruh dari variabel target tersebut adalah torsi, dimuna dalam taiget sistem bahan bakar, torsi sangatlah berpengaruh dalam menentukan tipe bahan bakar yang akan digunakan dalam sebuah kendaraan. Dari jenis mesin SOHC cenclerung digunakan untuk kendaraan-kendaraan yang bersilinder keell untuk mengirit pasokan bahan bakar yang digunakan oleh kendaraan tersebut.

Penentuan node tersebut akan menghasilkan number of cases dari sistem bahan bakar Sohc adalah 8, sedangkan presentage of datanya :lama engan 3.9% dan castnya adalah 1.0000

/*Rules for terminal node 1*/ if (

RASIO <= 22.85 && PANJANG <= 175.65 && UMESIN <= 91.5 &8.LEBAR <= 04.1 && TINGGI <= 51.4 )

{ terminalNode = -I: class = sohc: probClass J = 0: probCJass2 = 0, DrobCla~s3 = 0; probC!ass4 = 0; probClass5 = 0; proLClasSI) = 0; p,obClass7 = 0, probClass8 = 0; probCJass9 = 0.375: probClass 10 = 0; probCJass J J = 0; probClass12 = 0; probClass13 = 0.625; probClass14 = 0;

} Dari rules diatas dapat dilihat bahwa sistem bahan bskar sohc: sangat dipengarul1i oleh rasia, panjang. umesin, lebar, dan tinggi

Alur dari algoritma yang digunakan untuk mendapatkan informasi dari jenis mesin SOHC yaitu:

J ika sebuah kendaraan memiJiki rasio kurang dari 22.85 em dan panjang kurang dari 175.65 em dan ukuran mesin kurang dari 91.5 em dan lebar kurang dari 64.1 em dengan tinggi kurang dari 51.4 em maka jenis kendaraan tersebut eenderung beJjenis SOIle. Sebuah mobil dikatakan efisien apabila mempunyai tenaga mesin yang baik dan mel71iJiki sistem pembakaran yang tidak boros. maka jenis sistem bahan bakar SOHC akan lebih banyak didomiamsi oieh kendaraan keeil dengan yang memiliki ee (kapasitas

me~in)

dihawah ; 500 saja. Maka akan dapat diketahui banyaknya

kendaraan yang menggunakan Eystem bahan bakar SOHC adalah kendaraan yang memiliki ee (kdpasitas IT'.;;sia) keciJ atau digunakan untuk k;;ndaraan yang memiJiki body ramping (sedang) dengan meJihat dari segi kapasita5nya. Banyaknya jenis kenda,aaD yaDg mendominasi sistem bahan bakar SOHC adalah jenis minibus dan sedan.

4.2.2. Model Laku (banyaknya yang terjual)

Dalam pengolahan data dari model Laku (banyaknya yang terjual), dapat kita jadikan bahwa Laku (banyaknya kendaraan yang teJjual pada tahun 2004) menjadi variabel target. Variabel prediktornya yang mempengaruhi target adalah Hp (horse

power), Kathasil (harga yang banyak diambil oleh konsumen), Sbbfsyst ( sistem bahan bakar), Jkendaraan (Jerus kendaraan), dan merek mobil kendaraan. Dalam proses pemilihan variable akan dicari informasi yang menyatakan bahwa banyaknya kendaraan yang ada saat ini bukanya dipengaruhi oleh harga, tetapi banyaknya kendaraan yang digunakan oleh konsumen dilihat dari segi merek. Dalam menggunakan program CART jenis tree yang akan digunakan dalam menentukan model data tersebut adalah Regresi dimana nilai dari

vaI~abel

target

tersebut adalah bemilai numerik. Daiam pengolahan model laku, kami akan menggunakan metode Gini . Dalam menentukan model regresi, dapat dikelu)1Ui setiap variabel target dari Laku memiliki nilai diantaranya mean dan median, tetapi yang akan kami tentukan adalah nilai dari mean.

Dari tree di bawah ini akan didapatkan informasi bahwa :

IVRf1~BICJ

iA<~= ,

:,

~~"

1l::.fJ!)D 'lAJ)j)

\4<

~'>d~2

',fA

,

thde 10

1<8»,109:1.$ f'¥G=lOi.f';W '61' lro.lM) N·l00

r-.P.fMDBll$ A;~" 144.370 '011=6400{) N=&4 .~

\;:;;-

F~"';'~l

UW,,3

j Tim

He

: Um"

k'Q' 11~7)4

'1::~4$£00

N' 48

11= 16

Ii= 54

tlon

1<=16

ktg: 1017Sg

'or" 2flJ)) H" 2)

II i

r.::H"~'5~--1_ H?

Alg" BS-W:

W!~;51~'

Te'1Ti<'.at

!

IHe IWd" 7 IPorO=1l717S W: 1&.000

I

No 18

~-.;;;;-'

HI 1AtO "

1W_14~

~!4.Dc{; 1<=14

, '.. ' .J_

-~

._L

T5mU,.1 IW:J~ 10 iN' 1301\1

"i'2.lA);

,_.... _~__; :_'

1l=44

r __ .....J__

Twra Uxi" ~

---

W=44.ooo

I

_

Atg= I%'.i'w

.... '161«

.

HP

AJ~: 13'J&g~

_

~51

II

TellTlInal i I IMni.1Jl lemo.'\3l l1od\'13" Node14 ,1thj;;15 i W,,-4illl(l It/= l1!lfj{l ; i\f:(= HOD'

I"' !

~

'-~

llEj"8%

__L..., __,--' ._.1_, 1-;;;;;;;=-,J=---,

Hi

,

11'1=3<).000

I~ r,q~ml

Ih-~4 1I.~f1.10B!4

14

W"~).oo[,

kg·

W=!-4itX>

N~de

MRWDBllf PJJg" 16S.SO W=16.ooii

H

m_C'

I,m,

H

I'" , IN· ,

Tem.icl
!! Ilrm. 5 : _ Uode 6 I tbd,; 7 hade S W":~~._' r.W_·'_16~J :W"l~_ !~~_~_i w= lID) I"'de 4

GanJbar 4.3. Tree model .!...aku

Dari tree tersebut akan didapatkan terminal node sebanyak 14, akan dilihat infonnasi apa saja yang akan diketahui di dalam node tersebut.

Dari tree tFrsebut, optimum tree terminal node sebanyak 14 buah, dan dapat dinyatakan bahwa setiap kelas memiliki ciri yang berbeda-becla.

Hal tersebut dipengaruhi oleh variabel yang mempengaruhi target dibawah ini (Tabel 4.2.) :

Tabel 4.2. Variabcllmporianec Lalm

MRKMOBIL$ HP SBBFSYST$ KATHASIU JK.ENDA...R.A$

-

100,00

1111]11111]111111111]11111111

74,74 9,91

IIIIIIIIIIIIIIIIIIIIIIIII] IIJIJIIIIlIIIII II!

3,70

!

47,49

T

Oad Tabcl diatas variabel Importance yang sangat mempengamhi adalah merck mobil dan hp (house powel') Dari tabel diatas, yang paling mempengaruhi variabe! target adalah merek mobil, in; memperkuat dugaan di mastarakat bahwa orang indonesia cenderung membeli kcndaraan bcrdasarkan s~buah :r.crck bu.'<:an dari scgi harga atau yang Jai:1lain.

/*Ru!es for terminal nude 14*/ if ( (

MRKMOI3IL$ = audi II MRKMOBIL$ == peugot ) ) {

terminalNode = -14; mean = 161 )

Dalam penjualan kendaraan ternyata audi atau peugot, mempengaruhi rata-rata per1iualan di tahun 2004.

Berdasarkan dua merek kendaraan tersebut yairu audi atau peugot, banyaknya kendaraan yang diminati oleh konsumen rata-rata pada tahun 2004 adalah merek kendaraan audi atau peugot, tetapi

bukanlah rata-rata konsumen membeli merek

kendaraan tersebut. Akan dapat informasi yang berharga dari model laku, bahwa kecendrungan konsumen untuk memilih kendaraan audi atau peugot yang rata-rata mempcngaruhi pcnjualan di tahun 2004 sangatlah mcnguntungkan bagi produscn kendaraan tersebut. tetapi bukanlah kendaraan terbanyak yang di gunakan oleh konsumcn pada tahun 2004,

hanya saja merek kendaraan tersebut yang

mcmpcngarulli pcnjualan rata rata pada tahun 2004.

4.2.3. Model Kathasil (Harga yang dipilih uleh konsuillcn)

Dalarn pengolahan model ketiga dari data tersebut, dapat kita jadikan Kathasil Gumlah atau harga yang terjual) menjadi variabel target, karena dapat diketahui banyaknya kendaraan yang teIjual dengan hcrga yang murah, sedang, mahal, dan sangat mahal. (bahan

bakar),

Prediktornya yang mempengaruhi variabel target adalah Bbakar rnrkmobil(merek

mobil)

sbbfsyst

(sistem

bahan

bakar),

bpintu(banyaknya Pintu), JkcndaraanGensi kendaraan), Hp (house power) kendaraan tersebut. Tipe tree yang akan digunakan dalam untuk mengolah data tersebut adalah

tipe tree Klasifikasi. Dalam pengolahan Model Kathasil (Harga yang dipilih oleh konsumen) kita mengunakan metode Gini. DaJam menentukan kelas untuk data yang ban;, Kathasil dan penjualan kendaraan mempunyai prediksi bennacam macam dari murah, sedang, mahal, dan sangat mahal. Dari tree di bawah ini akan didapatkan informasi bahwa :

H'¥M06U

-I"""

,;Y·20HW

L~'~

.,----.--'=:= 1,~"qKM0ffi.$

i

riooe 2

Tcm.nrn N:;>je13

'W~17(H>OO

I

W·34.ooo

II

N· IlD

'T~-: Ncde12 i ;w~ UffJ

!

;.p'%d():

I

w.17.lJiXj

i

11_17 -i~-'-T~

!o::oe3 -" .. ~~.r))J

t~4 iW~\3I)YJ

Uii!IIIIIIllIJ !",.'1iW

.'

Gambar 4.4. Tree model Kathasil

Pada gambar tree diatas dapat dilihat bahwa node ke-13 memiliki model

yang

menyatakan model penjualan kendaraan untuk menengah ke atas. Da!am menentukan optimum tree, dapat terbentuk jumlah terminal node sebanyak 13 buah. Pada gambar diatas, dapat dinyatakan bahwa setiap kelas memiliki

ciri yang berbeda-beda. Tem1inal node 13 dapat menyatakan bahwa node tersebut dapat diklasifikasikan sebagai variabel sangat mahal. Pada gambar dibawah, a1:an didapatkan informasi bahwa : Gains Chart Gains C!'latt

_0 Cas No

%of

%

Cum%"

Cum

Node

Tgt

Tgt

%

% Pop

Cases

Cum

Lift

In

I~

Pop

2 34 13 33 28 45 13

4.000 3700 3623 2.326 1.789 1.283 1.186

3.647 3.385 0.242 0143 0000 0.000

'" i.nI.JI• •,:tP-.UijU'iiWfii 1.1.1••1.1.111 aEM.. 5 13 8 1 2 10 4 Tgt.

(:3$$:

Gai:>$

sangmahal

Lift

Cum Lift

2 31 11

2 1 0 0

100.000 91176 84.615 6861

3.922 11.765 2.941 09S0 6078472.549 19.60B 16667 21.56,94.118 25.980 6373 3922 38.039 42.15716176 3.571 1961 100.000 55.B82 '3.725 0000 0000 100.000 77.941 22059 0.000 0.000100.00084.314 6373

4.oaO

sengmahal: Learn

Tol~1 cases: 51

Percent of sample: 25,00

Gambar 4.5. Gains Chart dari sangat mahal

Tree optimal yang mempengaruhi gains chart dari nilai 25 % pengetahmn pada populasi maka kita dapat mengetahui harnpir seluruh informasi

kelas dari

variabel target tersebut. Dari Gambar 4.5. dinyatakan bahwa dengan setiap note yang akan mendekati nilai 100 akan diartikan sebagai jumlah dari peminat penjualan kendaraan yang sangat mahal tersebut sangat tinggi, lain pula apabila note itu semakin mendekati garis horizontal maka makna yang akan didapatkan adalahjumlah dari peminat penjualan kendaraan yang sangat mahal yang diminati oleh konsumen biasa saja atau tidak sarna sekali mengalami perubahan dalam penjualan dari merek kendaraan tersebut.

Hal tersebut dipengaruhi oleh variabel yang mempengaruhi target dibawah ini (TabeI4.3.) :

Tabcl 4.3. Varia bel Importance Kathasi!

MRKMOBIL$ SBBFSYST$ HP JKENDARA$ BBAKAR$ BPINTU$

100,00 50,22 42,68 35,54 1,39 0,00

1111111111111111111 111111111111111111 IIIIIIIIIIIIIII IIIIIIllIll

Daftar variabel yang mempengaruhi variabel target V8riabel yang sfulgat bcrpengaruh adalah merck mobil, dimana pada target kathasil dapat diketahui bahwa merck menenentuan harga dari mobil,

karena pada suatu

pembelian kendaraan, biasanya seorang konsumen cendrung membeli kendaraan bcrdasarkan lIlcrck. Pada Kathasil (harga penjualan) kendaraan roda empat biasanya produsen menentukan harga yang akan di beli oleh konsumen. Sebuah kendaraan dilihat dari sistem bahan bakamya dan Hp (house power) karena dari dna variabel tersebntlah sebuah kendaraan dapat dijual dengan beberapa tipe harga.

/*Rules for terminal node 13 */ if ( (

MRKMOBlL$ =

bmw II

MRKMOBIL$ = jaguar II MRKMOBIL$ == land rover Ii MRKMOBIL$ = mercedes-benz II MRKMOBIL$ = volkswagon ) ) {

terminalNode = -13: class = sangmahal; probClassl = 0.0882353; probClass2 = 0; probClass3 = 0.91 1765; probClass4 = 0; }

Dari model ini sm;gat veriabel karena tidak berIawanan dengan kenyataan bahwa, rnei·ek kendaraan BMW, JAGUAR, LAND ROVER, MERCEDEZ BANZ, "tau YOLKSW.,\GON adalah merek bn:iaraan dengan harga yang sangat mahal dan jcn" kenduraan terscbut banyak diminati oleh kalangan atas.

Alur clari mls yang digunakan untuk mendapatkan informasi

dan

data

penjualan kendaraan yaitu : Bahwa biasanya scbuab mobil yang dijual kcp"saran dcngan katcgori penjualan yang sangat mahal akan ditentukan oleh merek kendaraan seperti BMW, JAGUAR, LAND ROVER., MERCEDEZ BANZ, atau YOLKSWAGON. Maka akan diketabui banyaknya kendaraan yang dijua! kepasaran dengan harga yang sangat mahal dengan menggunakan system bahan bakar yang lebih bagus dan memiliki HP yang besar. maka kendaraan tersebut jarang dijual dengan harga murah, dan sedang.

4.2.4.

Model Jkendaraan (j"nis kendaraan)

Dalam pengolahan model jkendaraan (jenis kendaraan) dapat diketahui bahwa jenis kendaraan banyak mempengaruhi pendualan dari data tersebut, dapat kita jadikan jkendaraan (jenis kendaraan) sebagai variabel target dan predik'tomya yang mempengaruhi variabel target adalah Madein (buatan dari negara), Mrkmobil (merek mobil), Bbakar (bahan bakar), Eksmesin (menggunakan ke:cepatan standar atau turbo), Bpintu (banydcnya pintu), Ktit (kritcria mcsin), Kokl'1esin (lokasi mcsin), Jmesin Genis mesin). Cylinder ( ba;1yaknya cylinder) sbbftyst (sistem bahan bakar), Katha5il (Penjaalan),

Umesin (ukuran mesin), Torsi (jarak antara mesin dengan

rada) Panjang (p::'Dang mobil), Lebar (khar mobil), Tinggi (tinggi kendaraan), Berat (berat kepdaraa;1), Rasia (pcrbandingan bhdaraan), Hp (house power), Penjualan kendaraan tersebut. Dalam jenis tree yang aka.'1 digunakan dalarn mcnggunakan data tersebut adalah trce rjpe KlasifIkasi, Daiam pengolahan Jkendaraan (ienis kendaraan) akan kita gunal~an mctodc Gini,

Pada gambar dibawah, akan didapatkan informasi bahwa Nooe 1 S[JDfSY$~$

W·2l)4.(J."(,

IhX>l

GambaI' 4.6. Tree model jen's kendaraan

Dalam Tree, dapat terbentuk jumlah term;l.a; node sebanyak ; 4 buah, Pada Gambar 4.6. ciapat dinyatakan bahwa setiap kelas memiliki ciri yang berbeda-beda. Suatu me1'ek l:endara£i.f1 dapat diketahui Lefbed::t jika kend.ar~"1 tersebut dibua~ )'ang

berbe<1a.

Pada

tenninal

node

deng~n

5 menyatakan bahwa node

mengklasifikasikan variable Sport Utility Vehicle (Suv).

jenis

tersebut

Pada gambar dibawah, akan didapatkan informasi bahwa : Gains Chart Gains Chart 100

I

80

~

100

/"

80

I

I

60

I

u

,. 40

40

6 2

0 2D

40

"

SO 100

1. Population _.~--~-~._~--

Tgl Oa$"s:: suv Gains

Lift

CUfn Lift

%01

%

Node

Tgt

Cum%: Cum" Tgt. Pop

%

Cases

Cum

Pop

'"

lift

lI"njllm!lii'~·i~t.IC:!ljl.IM:@i 5

+ 0' 0

,

".

60

20

20,

No Care

2 2 15 3 3 4

8 14 3 4

D -

66667 6.452 12.903 66.667 6.452 19.355 62.500

30000 23077 8000 0000

_.~-

.-~---'-

2.451 3.922 413.387 67.742 15.686 9677 77.419 20.5R8 9.677 87.097 26.961 12.903 100.000 51.471 0000 100.00086.765

1.471 1.471 11,765 4.902

6.373 24.510 35.294

3 3 24 10 13 50 72

Lift Pop

iWMmmt 5.265 4.387 4.935 4.387 4.319 4.113 3.760 1.974 323D 15'19

1.943 0.526 1.153 OJ)OO

.

suv; Learn

Total cases; 31

Pelcent of sample: 1520

Gambar 4.7. Gains chart dad Sport Utility Vehicle (SUV)

Dalam glan chart Gambar 4,7. dapat dilihat bahwa jenis kendaraan Sport Utility Vehicle (SUV) adalah tipe kendaraan yang cukup banyak di ambil oleh konsumen, karena 20 % dari jumlah populasi d3pat m~wakili 90 % jumlah dan kelasnya.

Dapat dilihat bahwa setiap peminat kendaraan Sport Utility Vehicle (SUV) tersebut cukup banyak peminatnya. Jenis kendaraan SUV tersebut banyak digunakan oleh kalangan muda yang ingin kendaraannya berbody sport dan tampil beda dengan jenis kendaraan lain.

Hal tersebut dipengaruhi oleh variabel yang l11el11pengaruhi target dibawah ini (Tabel 4.4.) :

T:.be! 4.4. Variabe! lr.lportanee Jkendaraan

IMRKMOBIL$ SBBFSYST$ LEBAR TINGGI TORSI BERAT KATHASIL$ UMESIN PANJANG JMESIN$ HP

I

IIOO,OO 77,.50 165,57 59,99 59.98 47,59 44,99 43,75 40,35 36,42

35,88

IIIII!I!IIIIIIIIIIIIIIIIIII!II!!!IIII!!

IllIIIIllIIIIIIIIllIIllIIIIllIIIII IIIIIIIIIIIIIIIIlHIIIIIIIIIU

1

IIIIIIIIIIIIIIIIIIIIIIIIII!

I •

IIIIIIIIIIIIIIIIIIIII!IIII 111111111111111111111111 111111111111111111111

I

IIIIIIII!IIIIIIIIII I!IIII!I!IIIIIIII IIIIIIIIII!IIII

IIIIIIIIIIIIII

Variabel-variabel prediktor yang mempengaruhi variabel Jkendllr-aan

D'lpat dilihat bahwa merck mobil mendol11;nasi iebih banyak dari kendan:ai1 yar,g beIjenis SUV, dan sistem bahan bak.ar berpengal1lh terhadap jenis kendaraan tersebut. Padajenis mobil dapat dilihat bahwa kendaraan roda empat cenderung dilihat dari merek dan system bahan bakar dari pada spesifikasi yang lain. karena untuk jenis kendaraan SUV, banyak memodifikasi dari segi body dan bahan bakar maka akan didapatkan sebuah kendaraan yaIlg berbodi sport dengan bahan bakar yang tidak boros.

Untuk setiap produsen yang ingin membuat jenis kendaraan SUV, berarti ada kecenderungan merek-merek tertentu yang mempengaruhi uHtuk setiap pembuatan mobil dengan tipe ter(e;ltu. Oleh karena itu informasi yang berguna untuk produsen kecil dalam memprodllksi kendaraan adalah kecenderung produsen Ulltuk memilih tipenya yang tidak sama dengan merek-merek temama.

1* Rules for terminai node 5*1 if ( f

\

KATHASlL$ = mahalli KATHASlLS = murah II KATHASlLS == sedang

)&& (

MRKMOPI:,S = daihatsu II MRKMOBlL$ = hyundai II MRKMOBlL$ = isuzu II MR.Kl\10BlL$= mercedes-benz Ii MRKMOBIU = !1ismr, II MR.Kl\10BIL$ = suzuki II MRKMOBlL:; = toyOt8 II MRKMOBlL$ = volkswagen

)&& (

SBBFSYST$ = SBBFSYST$ = SBBFSYST$ = SBBFSYST$ = SBBFSYSTS = SBBFSYST$ = SBBFSYSTS = SBBFSYST$ = SBBFSYST$ = SBBFSYST$ = SBBFSYST$ =

)&&

disel II efi II feem II icimulti ifis II mpfi II mpi II msi II pgmfi II sohc II yanos

II

PANJANG> 185.05 ) {

terminalNode = -5; class = suv; probClass I = 0; probClass2 = 0; probClass3 = 0.333333; probClass4 = 0.666667; probClass5 = 0; }

Dari ruls diatas dapat diartikan bahwa banyaknya konsumer. memilih kendaraan bertipe SLTV (Sport Utility Vehicle) dilihat dari merek, dan jenis sistem bahan bakar. Alur dari rules diatas adalah bahwa setiap kendaraan SUV, haruslah memiliki panjang lebih besar dari 185.5. Sedangkan dengan mdihat dari segi pembuatan yang diproduksi oleh produsen dengan jenis kendaraan SUV banyalmya mcrek mobil yang mendominasi untuk jenis kendaraan SUV diantara!1ya adalah DA1HATSU, HYUNDAI,

ISUZU,

VOLKSWAGON.

MERSEDES

BENZ,

SUZUKI,

TOYOTA,

atau

BABV

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Ditahun 2004, Audi dan Peugot adaJah merek rata-rata yang dibeli oleh konsumen, hal ini merupakan informasi yang berguna t6rutama bagi para infestor. lnfestor mempunyai

poten~i

yang cukup besar untuk pemsahaan yang tingkat

sa:lamnya berada ditengah-tengah agar dc.pat berkembang untuk mengenalkan merek kendaraanya. Tingkat kcyalidarl atau keabsahan dati model, bisa di Ehat dati model kathasil. Bahwa mobil-mobil dengan tipe merek mobil seperj

BMW, JAGUAR, LAND

ROYER, MERCEDEZ BANZ, atau VOLKSWAGON memanglah termasuk tipe-tip6 harga yang sangat mahal. Tingkat keyaEdan atau keabsahan dari model, bisa dilihat dan model kathasil. Bahwa mobil-mobil dengan tipe merek mobil seperti

BMW, JAGUAR, LAND

ROYER, MERCEDEZ BANZ, atau YOLKSWAGON memanglah termasuk tipe-tipe harga yang sangat mahal. Produsen mobil dengan merek tertentu eenderung untuk membuat jenis kendaraan tertentu juga. Hampir kebanyakan dati seluruh produsen mobil baik yan.g harganya murah, sedang, mahal, dan sangat mahal atau deng,m sistem bahan bakar apapun temyata, produsen eenderung membuat jenis kendaraan tertentu juga.

5.2 Saran

Pengolahan data PT.OTO MULTIARATHA dengan teknik data mining dapat dilakukan dengan cara lain seperti: Mars, Svm, Hybrid model, dai1lain lain. Sehingga dapat diperoleh lebih banyak informasi dan merupakan salah satu bentuk veritlkasi dari model yang telah dikeJjakan

DAFTAR PUSTAKA

[I] [2]

[3] [4]

[51

[61 [7] [8] [9] [10] [II]

[12] [! 3] [14] [15]

Arif Rifai Dwiyanto, http://www.bogor.netlidkf/idkf/aplikasi/data-mining1997.rlf28 Me; 2006, pk. 09.30 W1B Mohammad Sugeng Haryono, Penggunaan Decesion Tree Pada Data Mining Untuk Pemilihan Costumer Dalam Rangka Promosi Produk, Theses JIPTlTS, 2006-05-22 11:44:47 Merlius Lusyanti, Regression analysis, Theses JIPTITS, 2006-05··22 11:44:47 Andl1yashin. Anton. Financial Applications of Classification and Regression Trees. Master Thesis. CASE - Center of Applied Statistics and Economics. Hbmboldt University, Berlin. 24 Maret 2005. Introductio,l to Data Mining and Knowledge Discovery Third Edition, by Two Crows Corroration MarkllS Hegland, Data mining tcclmiqucs.Centre for Mathematics and its Applications,School of Mathematical Sciences,Australian National University.Canberra ACT 0200, Australia 1 April 2002 J. Han and M. Kamber. Data Mining. March 18.2004 Motarilmad Sugeng Haryono, Mining, Decision Tree, Algoritma CART, Pemasaran Produk, 07-07- 200517:48:59 http://remo!es~nsing.montana.edu!pdfs/zambon _ et_al_2006.pdf, 28 Mei 2006, p:~. 00.30 \VIB http://w... ·v;.ise.bgu.ac.il;courses/kdd/slides/kdd04.pdt~ IMei 2006, ]'lk.Il.OOW1B ·http://de.wikipedia.org/wiki/QuartiL tanggal22 apIil2006jam 14.15 Confidence in an association rule http://publib.boulder.ibm.com/infocenter/db2!uw/v8/index.jsp?topic=/com.ib m.im.model.doc/c_defining_minimum_confidcnce.htrnltanggal 23-09-2006 Decision tree http://en.wikipedia.orgiwikilDecision_tree 23-05-2006 http://www.ee.ucr.edu!-barthlEE242/clustering_survey.pdf tanggal 14-032006 jam 18.00 DM Comer Data Mining & Knawledge Discovery - Reveal hidden knowledge clasifikasi_ \VWW-.rholips_worldpress_com_tgl_29_06_06_times_9_41.htrn JURNAL ILMU KOMPUTER DAN TEKNOLOGI INFORMASI VOLUME 1 NOMOR 2, Pcrbandingan KincJja Pcrangkat Lunak Dala Mining Untuk PencaIian Pola Asosiasi Dengan Metode Gfaf Asosiasi Dan Metode Dimensi Frakta, ArifDjunaidy, Fakultas Teknologi Inforrnasi, Institut Teknologi Sepuluh Nopelllber. Rully Soelaiman, Fakultas Teknologi Inforrnasi, Institllt Teknologi Seplllllh Nopember, NOVEMBER 200 I

[16] [17] []8]

http://w>vwAwoman.gov/faq/diabetes.pdf28Mei2006.pk. 09.30 WIB SPSS for Windows Release 1] .5, ponionsof this product cread LEAD TOOLS] 99]-200] CRM (Kini) Tak Sekedar Mengelola Pelanggan : eBivAsia April 2004.htm 2003 - 2004. http://www.eBiuAsia.com/April 2004.htrn. 13 april 2004 jam 12.00

Lampiran 1 Perubahan Nilai Numerik Menjadi Kategorik

Harga

No

, i

1 2 3 4 5 6 7 8 9 10

1083 900 252 . 218 271 266 330 405 656 252 II 548 12 335

§J622 I

,

,

.-

, I

14,515 15 493 j ') 2376 17 '915 18 141 19 158 20 148 21 157 22 148 23 24 123 25 120 26 117 27 123 28 114 29 256 30 144 31 140 32 146 33 154 34 161 35 120 36 130 37 225

1132

=I

Kategorik s3ngmahal __ sangmahal mahal mahal mahal mahal sangmahal sangmahal sangmahal mahal sanQillahal sangmahal s8i1gmahal sangmahal sangmahal sangmahal sangmahal sedang sedang scdang sedang scdang murah murah murah murah murah murah mahal sedang sedang sedang

--

----

---

-----

---

:=l ---

sedang sedang murah murah mahal

Ii

38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54

II

I'I , ,

I !

I I

55

I i

,I !

-

56 57 5" 59 60 61 6" 63

146 232

246 226 214 161 243 138 235 338 333 450 142 160 112 133 144 159 160 183 167 144 ,140 131 130 138

~167

l-_£~.lI88 , , , I

I I

, I

,I I

139 67 377 68 432 69 432 70 379 71 !750 72 710 73 916 74 1716 75 379 76 . 161 77 184 78 190 79 191 80 105

,,6

sedang mahal mahal mahal mahal sedang mahal murah mahal

sangmahal sangmahal samrrnahal sedang sedang murah murah sedang sedang sedang mahal sedang sedang sedang murah fl1w'Rh murah sedang mahal manal sangmahal sangmahal sangmahal sangmahal sangmahal sangmahal sangmahal sangmahai sangmahal sedang mahal mahal mahal murah

=J,

_=i --

~

---

--

-----

------

---

--

---

~

81 !

.~

118

82 " 169

83 125 84 135 85 161 86 146 87 ! 161 88 191 89 151 90 ; 194 91 129 92 123 93 177 94 170 95 158 96 150 97 153 98 ! 178 99 288 100 205 101 207 IO~ 472 103 350 104 337 105 307 106 ,641 107 91 108 96 109 102 110 III III 125 112 134 113 174 114 156 lIS 194 116 204 1:7 374 118 179 119 177 120 173 121 157 122 166 123 272

murah scdang mllrah mllrah sedang sedang sedang mahal sedang mahal mllrah mllrah mahal sedang sedang sedang sedang mahal sangmahal mahal mahal sangmahal sangmahal sangmahal sangmahal sangmahal mllrah murah murah mutah murah murah mahal scdang mahal mahal sangmahal mahal mahal mahal sedang

sedang mahal

~

-----,

=1

-i ---J

--l

--

~

124 166 106 126 109 127 112 128 113 129 123 130 I 159 131 176 132 140 133 142 134 144 135 160 136 " 102 137 104 138 126 139 1126 140 212 141 I 163 142 187 143 129 144 137 145 140 146 154 147 157 148 172 249 114 151 123 152J 117 153 116 154 162 155 159 156 115 157 187 158 137 159 121 160 143 161 149 162 135 163 138 164 133 165 154 166 164 p<

-'

~~

!

!

tI

I

!

sedang murah murah murah murah murah sedang mahal sedang sedang sedang sedang murah murah murah ! murah mahal sedang

mahal murah murah sedang sedang sedang mahal mahal murah mural, murah murah sedang sedang murah mahal murah murah sedang sedang

murah murah murah ~"cdang

sedang

~ -1

--

----

---i ---I

-=1

=i

---§ -----

---

---

,

1_ I'

167 168 169 170 171 172 174 173 175

617 504 208 227 270 280 ,230 30b 248 1268 248 230 230 208 831 292 224 .! 275

il g~1 178

~

.

I I' I

]80 18] ]82 183 184 185 186 ]87 188 189 190 19] 192 ]93 194 ] 95 196 /97 198 ]99 200 20] 202 203 204

338 351 390 376 ,406 390 4]8 464 400 97 ]21 ] 14 15 ] 135 277 236 347 349 368 409

sangmahal sangmahal mahal mahal mahal sangmahal mahal sangmahal P.1ahal mana}

mahal mahal mahal mahal sangmahaI sangmaha1 mahal mahal sangmaha1 sangmahal sangmaha1 sangmahal sangmahal sangmahal san~ahal

sangmahal sangmaha1 I murah I murah murah sedang murah sangmaha1 mahal sangmaha1 sangmaha1 sangmaha1 sangmahal

~

-----

----

---

--

--

~ --

----

--

Lampiran 3 Penginisialan Variabel

Tipe

Nama

No.

Tipe Data" \'ariabcl

Pengukuran

I

1

Symbol

;-~umerik

Rasin

2

Madein

String

Nominal

Laku

String

Nominal

,

MrkmobiJ

String

Nomina!

I5 I!

Bbakar

String

rOminal

Eksmesin

String

hI

6

I7 I

I B;>intu

h ------!' -f'""' "'" 9

. 10 -

Krit

I Lokmesin

HTorsi

I Nomina! ,

String

NO!11inal

String

Nominal

String

Nominal

I

~ ~

I I

~

~ lk.m:n,1

Numerik

Rasin

I I

Panjang

Rasin

Lebar

Numeri!:

Rasio

14

Tinggi

Numerik

Ra<:;,jo

15

Berat

Numerik

Rasio

16

. Jrnesir.

String

Nominal

H

I

-String

Numerik

12

~

I

I 17

Cylinder

String

Nominal

18

Umesin

Numerik

Rasin

1

I

I,

Mpfi

IY

' 01

Rasia

,I Bp

r~~-l 23 1

1

24

I Nominal

, String

!

i

I-;Q

I~

I

Barga

I Kat~asil I Per0ualan

I Numerik

IRaSiO

Numcrik

1~,aSiO

I

I, Numerik I String String

-Rasio

-

Nominal

~ominal

I

~

1427 H

Recommend Documents