Cross Industry Standard Process for Data Mining (CRISP-DM)
Nama : Siti Maskuroh NIM : A11.2011.06038 Kel : A11.4812
CRISP-DM • CRISP - DM adalah metodologi data mining komprehensif dan Model proses untuk siapa pun (dari pemula sampai ahli data mining) dengan blueprint untuk melakukan proyek data mining. • CRISP - DM breaks down siklus hidup proyek data mining dibagi menjadi 6 fase .
Sejarah • CRISP-DM – diusulkan pada pertengahan 1990an oleh konsorsium perusahaan-perusahaan eropa untuk dijadikan methodology standard nonproprietary bagi DM (CRISP-DM, 2009) • Diluncurkan pada pertengahan tahun 1996 • Dikembangakan dan disempurnakan dari workshops (1997-1999) yang didukung oleh 300 lebih perusahaan. • CRISP - DM 1.0 diterbitkan ( 1999) • Lebih dari 200 anggota SIG CRISP - DM di seluruh dunia • Vendor DM - SPSS , NCR , IBM , SAS , SGI , Data Distilleries , Syllogic , Magnify
Standart data mining CRISP-DM
6 fase CRISP-DM 1. Fase Pemahaman Bisnis (Business Understanding Phase) 2. Fase Pemahaman Data (Data Understanding Phase) 3. Fase Pengolahan Data (Data Preparation Phase) 4. Fase Pemodelan (Modeling Phase) 5. Fase Evaluasi (Evaluation Phase) 6. Fase Penyebaran (Deployment Phase)
Fase Pemahaman Bisnis(1) • Rencana projek untuk menemukan knowledge sehingga menetapkan orang-orang yang bertanggaungjawab untuk koleksi data, analisa, melaporkan temuan-temuan • Penentuan tujuan proyek dan kebutuhan secara detail • Menerjemahkan tujuan dan batasan permasalahan data mining • Menyiapkan strategi awal untuk mencapai tujuan • Perlunya menentukan budget untuk mendukung kajian ini.
Fase Pemahaman Data(2) • • • • •
Mengidentifikasi data yang relevan dari berbagai database yang ada. Analisa data agar dapat mengenali data lebih lanjut. Mengevaluasi kualitas data. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan Contoh : project DM untuk retail mungkin ingin mengetahui mengenai perilaku belanja para wanita penggemar belanja yang membeli baju-baju untuk musiman berdasarkan demografis mereka, transaksi kartu kredit mereka, dan ciri-ciri sosioekonomi mereka.
Fase Pengolahan Data(3) • Pemrosesan data menyita waktu dan usaha paling banyak. Sekitar 80% dari total waktu yang dibutuhkan dalam pengerjaan proyek. • Pilih kasus dan variabel sesuai analisis yang akan dilakukan. • Lakukan perubahan pada beberapa variabel jika dibutuhkan. • Siapkan data awal sehingga siap untuk perangkat pemodelan. • Contoh : mengkonversi data rill yang pada umumnya tidak lengkap, noisy(berisi data error), data tidak konsisten agar bisa menjadi dataset yang bisa digali
Fase Pemodelan(4) • Tahap pembuatan model juga mencakup penilaian dan analisa komparatif dari berbagai model yang dibangun. Karena tidak ada satupun model yang secara universal dianggap sebagai metode / algoritma yang terbaik. • Pilih dan aplikasikan teknik pemodelan yang sesuai. • Beberapa teknik mungkin dapat digunakan pada permasalahan yang sama. • Proses dapat kembali ke fase pengolahan data jika diperlukan. • Contoh : beberapa metode DM seperti decision tree,classification, k-means untuk clustering, dan Apriori untuk association rule mining
Fase Evaluasi(5) • Tahap ini mengukur sejauh mana model yang sudah dipilih memenuhi sasaran-sasaran bisnis • Mengevaluasi satu atau lebih model sebelum disebarkan. • Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. • Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. • Contoh : menginterpretasikan hasil-hasil solusi matematis yang canggih maka seringkali digunakan berbagai macam tabulasi dan teknik-teknik visualisasi (misalnya table-tabel pivot, tabulasi silang dari berbagai temuan,diagram pie,diagram batang,scatterplots).
Fase Penyebaran(6) • Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek. • Tahap „deployment‟ mungkin juga meliputi berbagai aktivitas „maintenance‟ pada model yang sudah digunakan. Karena semua yang terkait dengan bisnis pasti mengalami perubahan • Contoh sederhana penyebaran: Pembuatan laporan. • Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain.
Referensi • http://repository.widyatama.ac.id/xmlui/bitstream/handle/ 123456789/2360/13.%20BAB%20II.pdf?sequence=14 • http://paginas.fe.up.pt/~ec/files_0405/slides/02%20CRIS P.pdf • http://beritati.blogspot.com/2013/08/seri-data-mining-forbusiness_19.html diakses 7/10/2014
Naive bayesian classifier • Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence) • Mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain • Karena asumsi atribut tidak saling terkait (conditionally independent), maka:
• Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki P(X|Ci)*P(Ci) maksimum
Contoh soal NO
JENIS KELAMIN
STATUS MAHASISWA
STATUS PRENIKAHAN
IPK Semester 1-6
STATUS KELULUSAN
1
LAKI - LAKI
MAHASISWA
BELUM
3.17
TEPAT
2
LAKI - LAKI
BEKERJA
BELUM
3.30
TEPAT
3
PEREMPUAN
MAHASISWA
BELUM
3.01
TEPAT
4
PEREMPUAN
MAHASISWA
MENIKAH
3.25
TEPAT
5
LAKI - LAKI
BEKERJA
MENIKAH
3.20
TEPAT
6
LAKI - LAKI
BEKERJA
MENIKAH
2.50
TERLAMBAT
7
PEREMPUAN
BEKERJA
MENIKAH
3.00
TERLAMBAT
8
PEREMPUAN
BEKERJA
BELUM
2.70
TERLAMBAT
9
LAKI - LAKI
BEKERJA
BELUM
2.40
TERLAMBAT
10
PEREMPUAN
MAHASISWA
MENIKAH
2.50
TERLAMBAT
11
PEREMPUAN
MAHASISWA
BELUM
2.50
TERLAMBAT
12
PEREMPUAN
MAHASISWA
BELUM
3.50
TEPAT
13
LAKI - LAKI
BEKERJA
MENIKAH
3.30
TEPAT
14
LAKI - LAKI
MAHASISWA
MENIKAH
3.25
TEPAT
15
LAKI - LAKI
MAHASISWA
BELUM
2.30
TERLAMBAT
Tentukan “keterangan” KELAMIN
LAKI – LAKI
STATUS
MAHASISWA
PRENIKAHAN
IPK
KETERANGA N
BELUM
2.70
???
Tahap penyelesaian
Hasil
KELAMIN
LAKI - LAKI
STATUS
MAHASISWA
PRENIKAHAN
BELUM
IPK
KETERANGAN
2.70
TERLAMBAT
Kelebihan dan kelemahan Kelebihan : • Mudah diimplementasi • Memberikan hasil yang baik untuk banyak • kasus Kelemahan: • Harus mengasumsi bahwa antar fitur tidak terkait (independent) Dalam realita, keterkaitan itu ada • Keterkaitan tersebut tidak dapat dimodelkan oleh Naïve Bayesian Classifier
Referensi • http://charitasfibriani.files.wordpress.com/2010/11/perte muan_82.doc • http://educationprogrammer.blogspot.com/search/label/Data%20Mining • http://www.informatika.unsyiah.ac.id/tfa/dm/dmbayesian-classifier.pdf