UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
PRAKTIKUM KE-5 KLASIFIKASI I
1. Tujuan Praktikum 1) Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian pengetahuan / pola data dari sejumlah data dengan menggunakan teknik klasifikasi. 2) Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan menerapkan teknik klasifikasi. 3) Mahasiswa mampu memahami konsep dan menerapkan salah satu algoritma klasifikasi yaitu decision tree. 4) Mahasiswa mampu mengolah data dan menginterpretasikan hasil pengolahan data menggunakan metode klasifikasi dengan bantuan aplikasi Rapid Miner.
2. Definisi Klasifikasi Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah objek.
Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y Klasifikasi adalah proses untuk menempatkan objek tertentu (konsep) dalam satu set kategori, berdasarkan sifat masing-masing objek (konsep) (Gorunescu, 2011). Klasifikasi tergolong dalam supervised methods.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Supervised methods adalah metode yang berusaha untuk menemukan hubungan antara atribut input (variabel independen) dan atribut target / kelas (variabel dependen). Hubungan yang ditemukan diwakili dalam struktur yang disebut sebagai model. Biasanya model menggambarkan dan menjelaskan fenomena yang tersembunyi dalam dataset dan dapat digunakan untuk memprediksi nilai atribut target mengetahui nilai-nilai atribut masukan (Maimon, 2010). Proses klasifikasi didasarkan pada empat komponen dasar (Gorunescu, 2011) : 1) Kelas (class) atau label kelas yaitu variabel dependen dari model yang merupakan variabel kategori yang menjelaskan sebuah 'label' pada objek setelah proses klasifikasi. Contoh : loyalitas pelanggan (label : loyal / tidak loyal), kelas bintang (galaksi), dll. 2) Prediktor (predictor) atau atribut (attribute) yaitu variabel independen dari model yang diwakili oleh karakteristik (atribut) dari data yang akan diklasifikasikan dan berdasarkan klasifikasi yang dibuat. Contoh prediktor tersebut adalah: merokok, konsumsi alkohol, tekanan darah, frekuensi pembelian, status perkawinan, dan kecepatan angin, musim, dll. 3) Training set atau dataset latihan (training dataset) yaitu merupakan kumpulan data yang berisi nilai-nilai atau record untuk dua komponen sebelumnya (kelas dan prediktor / atribut) dapat berupa variabel kontinyu maupun kategoris, dan digunakan untuk 'pelatihan' atau pembangunan model untuk menyesuaikan dengan kelasnya berdasarkan prediktor yang tersedia. Contoh set tersebut adalah: kelompok pasien diidentifikasi pada kasus serangan jantung berdasarkan faktor-faktor yang mempengaruhinya, kelompok pelanggan dari supermarket, dll. 4) Dataset pengujian (testing dataset) yaitu berisi data baru yang akan diklasifikasikan oleh model klasifikasi (classifier) dan untuk mengukur tingkat akurasi klasifikasi (kinerja model) sehingga performansi model klasifikasi dapat dievaluasi. Model dalam klasifikasi antara lain yaitu (Bertalya, 2009) : 1) Pemodelan Deskriptif Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan objek-objek dari kelas yang berbeda.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
2) Pemodelan Prediktif Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record yang belum diketahui.
3. Penerapan Klasifikasi Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain kesehatan, perbankan, ritel, dll. Masing-masing memiliki atribut yang sesuai dengan kasus masing-masing. Misalnya dalam ritel, kasus yang biasanya digunakan adalah pemberian diskon/bonus.
4. Tahapan Klasifikasi Tahapan dalam klasifikasi antara lain adalah : 1) Preprocessing Data Tahap awal yang dilakukan sebelum proses klasifikasi adalah melakukan preprocessing data, terdapat beberapa langkah preprocessing data, yaitu : a) Data Integrasi Data Integrasi merupakan pengabungan data dari beberapa sumber. Dalam metode klasifikasi data integrasi dilakukan dengan mengumpulakan beberapa data yang berasal dari beberapa departemen di sebuah perusahaan untuk mendapatkan satu database yang akan digunakan untuk pengolahan pada metode klasifikasi. b) Data Cleaning Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan penanganan terhadap missing value pada suatu record. c) Data Diskretisasi Data diskretisasi merupakan proses membuat kelas – kelas data (range) untuk parameter dalam melakukan transformasi untuk tahapan berikutnya. d) Transformasi Data Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
Pembelajaran
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
terhadap
data
hasil
generalisasi
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
dapat
mengurangi
kompleksitas
pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil. e) Data Reduksi Data reduksi merupakan proses mengurangi data atau variable yang tidak memiliki hubungan atau korelasi dengan tujuan penelitian. Dalam menggunakan metode klasifikasi, data reduksi dilakukan dengan melakukan uji independensi chi square untuk mengetahui ada tidaknya hubungan atribut dengan label kelas. Berikut merupakan tahapan uji chi square independensi : CONTOH KASUS : Diketahui bahwa PT.ABC ingin mengetahui status Green Supply Chain Management (GSCM) pada setiap periodenya, sehingga perlunya dibuat sebuah model prediksi yang dapat memprediksi status GSCM pada setiap periode. Pada PT. ABC GSCM dipengaruhi oleh 4 faktor utama yaitu Order Fullfilment, Reject Product, Air Emission dan Water Emission. Dengan data berikut :
Periode 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
% Perfect Order Fullfilment High High High Mid Mid Mid Mid Low Mid High Low High Low Low Low
Emission to air (mg/ADMt) Low Low Mid Mid Low High Mid High Mid Low Mid Low Mid Mid High
Emission to Water (g/ADMt) High High Mid High Low Mid High Low High Mid Low High Mid Low Mid
GSCM Status Green Green Green Green Green No Green Green No Green No Green Green No Green Green No Green No Green No Green
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Setelah didapatkan data seperti pada tabel diatas, data diubah menjadi data numerical seperti berikut ini : Tabel 1.2 Data Hasil Transformasi % Perfect Order Periode Fullfilment 1 3 2 3 3 3 4 2 5 2 6 2 7 2 8 1 9 2 10 3 11 1 12 3 13 1 14 1 15 1
Emission to air (mg/ADMt) 1 1 2 2 1 3 2 3 2 1 2 1 2 2 3
Emission to Water (g/ADMt) 3 3 2 3 1 2 3 1 3 2 1 3 2 1 2
GSCM Status 1 1 1 1 1 2 1 2 2 1 2 1 2 2 2
1. Masukkan data sesuai pada Tabel 1.2 pada data view sebagai berikut :
Gambar 1.1 Data View
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
2. Lalu, lakukan perubahan data pada variable view seperti berikut ini untuk semua atribut serta label kelas seperti berikut ini :
3. Untuk tahapan berikutnya, klik Analyze Descriptive Statistics Crosstabs,
Masukkan Atribut kedalam Row(s) dan label kelas ke dalam Column(s). Kemudian klik bagian Statistics dan checklist pada Chi-Square seperti berikut ini :
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Lalu, klik continue dan langsung klik OK untuk mendapatkan hasil output dari uji chisquare independensi. 4. Berikut merupakan output yang didapatkan dari pengujian chi-square independensi :
Berdasarkan hasil diatas, dapat dilihat dari nilai Sig.Pearson Chi-Square. Dapat diketahui bahwa Sig ≤ 0.05 maka data atribut memiliki hubungan dengan label kelas, sementara ketika Sig > 0.05 maka data atribut tidak memiliki hubungan dengan label kelas. 2) Pembuatan Model Dalam Klasifikasi Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : a) Pembelajaran / Pembangunan Model
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Tiap – tiap record pada data latih (training set) dianalisis berdasarkan nilai – nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.
Gambar 2. Learning : Training data. Sebagai contoh, pada gambar 2. menjelaskan tahap awal proses klasifikasi yaitu mendapatkan model klasifikasi (classifier) dari data latihan (training data) menggunakan algoritma klasifikasi. Atribut label kelas adalah ”Tenured“, dan “Learned Model“ atau “classifier“ di gambarkan pada blok aturan klasifikasi.
b) Klasifikasi Pada tahap ini, data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record pada data yang baru.
Gambar 3. Classification: Test data.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Pada gambar 3., data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan (classifier). Jika keakuratan tersebut dianggap dapat diterima, maka aturan itu dapat diaplikasikan untuk mengklasifikasikan data records yang baru.
5. Asumsi Dalam Klasifikasi Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai: 1. Setiap record diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh label kelas atribut, 2. Kumpulan record yang digunakan untuk membuat model disebut kumpulan pelatihan (training set), 3. Model direpresentasikan sebagai classification rules, decision tree atau formula matematis. Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang belum diketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari model, 2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan secara tepat oleh model, 3. Kumpulan tes tidak terikat pada kumpulan pelatihan, 4. Jika akurasi diterima, model dapat digunakan untuk mengklasifikasikan data record yang label kelasnya belum diketahui. Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi, dapat dilakukan dengan menghitung jumlah dari test record yang diprediksi secara benar (akurasi) dan salah (error rate) oleh model tersebut. Akurasi dan error rate didefinisikan sebagai berikut.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Model di klasifikasi dapat dikatakan baik untuk digunakan apabila mempunyai akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set.
6. Algoritma Klasifikasi Pada teknik klasifikasi terdapat beberapa algoritma klasifikasi yang dapat digunakan, antara lain: pohon keputusan (decision tree), rule based, neural network, support vector machine, naive bayes, rough set, dan nearest neighbour.
7. Algoritma Decision Tree Salah satu metode teknik klasifikasi data mining yang umum digunakan adalah decision tree. Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk dikonversi ke aturan klasifikasi. Teknik pohon keputusan lebih mudah digunakan, karena beberapa alasan: a) Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah diinterpretasi/ ditangani oleh manusia. b) Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon keputusan efisien dan sesuai untuk himpunan data besar. c) Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang terkandung dalam training data (yaitu, pengetahuan domain dari distribusi-distribusi pada data atau kelas-kelas).
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
d) Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan teknikteknik yang lainnya.
1) Konsep Decision Tree Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).
Gambar 4. Konsep Decision Tree 2) Tipe Simpul Pada Tree Tree mempunyai 3 tipe simpul, yaitu: 1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi), 2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran, 3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge keluaran. Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.
Gambar 5. Decision tree untuk masalah klasifikasi
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
3) Konsep Data Dalam Decision Tree a) Data dinyatakan dalam bentuk tabel dengan atribut dan record. b) Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. c) Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.
Gambar 6. Contoh data untuk Decision Tree
4) Proses Dalam Decision Tree a) Proses Mengubah Data Menjadi Tree
Gambar 7. Mengubah Data Menjadi Tree
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
b) Ukuran untuk Memilih Split Terbaik Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), tahap awal yang dilakukan adalah mengevaluasi semua atribut yang ada menggunakan suatu ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Atribut yang diletakkan pada root node adalah atribut yang memiliki information gain terbesar. Semua atribut adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan keputusan akhir. Secara matematis dapat dirumuskan dengan:
c) Entropy Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data. Panjang kode untuk menyatakan informasi secara optimal adalah p2log− bits untuk messages yang mempunyai probabilitas p. Untuk menghitung information gain, terlebih dahulu kita harus memahami suatu ukuran lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu parameter untuk mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka semakin besar nilai entropy. Secara matematis, nilai entropy masing-masing instance dirumuskan sebagai berikut:
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Keterangan : S
= ruang (data) sample yang digunakan untuk training.
P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu. P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu. Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:
d) Information Gain Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat diukuer efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini disebut Information Gain. Secara matematis, information gain dari suatu atribut, dituliskan sebagai berikut:
Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut (simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut. Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang bernilai diskrit dengan keputusan seperti diterima = “ya” atau “tidak”. Namun jika kita menemukan kasus yang mempunyai nilai keputusan kontinyu cara untuk menyelesaikannya adalah dengan mengubah nilai-nilai kontinyu menjadi nilai-
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
nilai diskrit dengan cara mempartisi nilai kontinyu ke dalam interval-interval bernilai diskrit.
Tabel 1. Contoh Data penerimaan karyawan dengan atribut IPK bernilai kontinyu
Untuk menyelesaikannya kita misal atribut IPK kita ubah menjadi 3 nilai diskrit dengan membentuk interval “bagus“=[3,00-4,00], “cukup“=[2,75-3,00] lalu kembali dengan melanjutkan langkah-langkah selanjutnya.
e) Mengubah Tree Menjadi Rules Tahap terakhir dalam algoritma decision tree adalah mengubah tree menjadi rules seperti pada gambar di bawah ini.
Gambar 8. Mengubah Tree Menjadi Rules
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Sebagai contoh, terdapat sebuah kasus seseorang menentukan akan main tenis di lapangan atau tidak berdasarkan faktor cuaca dan angin, maka berdasarkan tree yang terbentuk dapat diubah menjadi beberapa rule seperti gambar di bawah ini.
Gambar 9. Mengubah Tree Menjadi Rules
5) Contoh Kasus Decision Tree a) Menentukan Node Terpilih Dari data sampel ditentukan node terpilih, yaitu dengan menghitung nilai entropy masing-masing atribut. (jumlah beli, harga, dan keadaan barang). Catatan Node terpilih adalah kriteria dengan Information Gain yang paling besar.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Entropy untuk harga:
Nilai Informasi untuk data tersebut adalah:
Information Gain (I) =0.9183-0.36 =0.558296 Dengan menggunakan cara yang sama nilai entropy atribut yang lain adalah sebagai berikut: Tabel 2. Nilai Entropy untuk Jumlah Beli dan keadaan Barang
Terpilih atribut HARGA sebagai node awal karena memiliki information gain terbesar.
b) Menyusun Tree Awal
Gambar 10. Tree Awal yang Terbentuk
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada contoh di atas hanya harga = sedang yang mempunyai nilai + dan –, maka semuanya pasti mempunyai internal node. Untuk menyusun internal node lakukan satu-persatu.
c) Internal Node untuk harga = sedang Tabel 3. Internal Node Harga Sedang
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
d) Menyusun Tree Lanjutan
Gambar 11. Tree Lanjutan 1
Gambar 12. Tree Lanjutan 2
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
e) Hasil Tree Akhir
Gambar 13. Tree Akhir
f) Mengubah Tree Menjadi Rule Rule yang terbentuk dari hasil tree akhir adalah sebagai berikut: R1: IF Harga = mahal THEN diskon = ya R2: IF Harga = murah THEN diskon = tidak R3: IF Harga = sedang dan Jumlah Beli = sedikit THEN diskon = tidak R4: IF Harga = sedang dan Jumlah Beli = banyak dan Keadaan Barang = cacat THEN diskon = ya R5: IF Harga = sedang dan Jumlah Beli = banyak dan Keadaan Barang=baik THEN diskon = tidak
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
g) Menghitung Akurasi dan Error Hasil Prediksi pada training set adalah sebagai berikut: Tabel 4. Hasil Model Klasifikasi dan Prediksi
Keterangan: Warna kuning menunjukkan ketidaksesuaian atau tingkat error Tingkat error = 3/18 *100% = 16.67 %. Sedangkan untuk akurasi adalah sebesar = 15/18*100% = 83.33 %.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Langkah - langkah Decision Tree dengan Rapid Miner : 1. Buka software rapid miner, klik New Process 2. Pilih File-Import Data-Import Excel Sheet
Gambar 14. Membuka Data 3. Pilih file yang akan diproses, kemudian klik Next
Gambar 15. Data Import Step 1
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
4. Pilih Sheet (halaman) yang akan diproses, kemudian klik Next
Gambar 16. Data Import Step 2 5. Klik Next
Gambar 17. Data Import Step 3
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
6. Pilihlah atribut dan tipe data yang sesuai, kemudian klik Next.
Gambar 18. Data Import Step 4 7. Simpan data di folder yang Anda inginkan kemudian ketik nama file sesuai keinginan Anda pada kolom Name, kemudian klik Finish
Gambar 19. Data Import Step 5
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
8. Akan muncul tampilan seperti di bawah ini, kemudian klik icon
Gambar 20. Output Import Data
Menggunakan Algoritma Decission Tree 1. Drag file klasifikasi ke dalam kotak Main Process
Gambar 21. Proses Drag Data Klasifikasi
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
2. Cari Select Attributes pada kotak search, drag kedalam kotak Main Process, lalu hubungkan (out) dari file ke (exa) Select Attributes.
Gambar 22. Proses Drag Select Attribut
3. Kemudian pilih atribut yang akan digunakan dengan klik kotak Select Attributes, ganti attributes filter type dengan pilihan “subset”, lalu klik pilihan Select Attributes.
Gambar 23. Pemilihan Attribut
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
4. Pilih atribut yang akan digunakan dengan memindah atribut dari kolom Attributes kekolom Selected Attributes. Lalu klik Apply.
Gambar 24. Proses Pemilihan Attribut 5. Cari algoritma yang akan digunakan, (Decison Tree) pada kotak search
Gambar 25. Pencarian Algoritma Decision Tree
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
6. Kemudian drag algoritma yang akan digunakan (Decision Tree) ke dalam kotak Main Process. 7. Cari Apply Model pada kotak search
Gambar 26. Pencarian Apply Model
8. Drag Apply Model pada kotak Main Process. 9. Cari Performance pada kotak search
Gambar 27. Pencarian Performance
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
10. Drag Performance pada kotak Main Process. 11. Maka akan terbentuk seperti gambar di bawah ini.
Gambar 28. Main Process
12. Setelah itu, buat hubungan antar kotak :
(exa) Select Attributeske (tra) Decision Tree
(mod) Decision tree ke (mod)Apply Model
(exa) Decision tree ke (unl)Apply Model
(lab) Apply Modelke (lab) Performance
(mod) Apply Modelke (res) (Output)
(per)Performance ke (res) Output
(exa) Performance ke (res) Output
13. Maka akan terbentuk kotak Main Process seperti di bawah ini.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Gambar 29. Proses Penghubungan
14. Untuk algoritma Decision Tree. Klik kotak Decision Tree maka akan muncul tampilan di bawah ini, kemudian klik criterion dan pilih information_gain (karena menggunakan algoritma Decision Tree (C4.5) maka dipilih information gain sebagai penentu kriteria (atribut).
Gambar 30. Output Import Data
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
15. Kemudian klik icon
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
, maka akan muncul output (decision tree) seperti di bawah ini :
Gambar 31. Output Import Data Berdasarkan decision tree diatas, berikut adalah rule-rule yang terbentuk : R1
: Jika IPK = Rendah Maka Status = Tidak Diterima
R2
: Jika IPK = Tinggi Maka Status = Diterima
R3
: Jika IPK = Sedang, Keaktifan Organisasi = Aktif, dan Prestasi = Ada Maka Status = Diterima
R4
: Jika IPK = Sedang, Keaktifan Organisasi = Aktif, dan Prestasi = Tidak Ada Maka Status = Tidak Diterima
R5
: Jika IPK = Sedang, Keaktifan Organisasi = Tidak Aktf Maka Status = Tidak Diterima
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
16.
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
Untuk melihat tingkat akurasi maka klik Performance Vector, maka akan muncul output sebagai berikut :
Gambar 32. Output Performance
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM Fakultas Jurusan/Program Studi Kode Mata Kuliah Nama Mata Kuliah
: Teknologi Industri : Teknik Industri : 52213604 : Analisis Keputusan dan Data Mining
Pertemuan ke :5 Modul ke :5 Jumlah Halaman : 29 Mulai berlaku : 2016
DAFTAR PUSTAKA
Bertalya. 2009. Konsep Data Mining. Jakarta: Universitas Gunadarma. Florin Gorunescu. 2011. Data Mining : Concept, Model and Techniques. Berlin : Springer. Oded Maimon dan Lior Rokach. 2010. Data Mining and Knowledge Discovery Handbook. London : Springer.