BAB 2 LANDASAN TEORI
2.1. Electronic Mail (E-Mail) Electronic mail (surat elektronik, e-mail) adalah sebuah metode menggubah, mengirim, menyimpan, dan menerima pesan melalui sistem komunikasi elektronik. Istilah e-mail meliputi sistem yang berdasar pada Simple Mail Transfer Protocol (SMTP) dan sistem intranet yang memungkinkan pengguna dalam satu organisasi mengirimkan pesan kepada satu sama lain. Seringkali kelompok organisasi tersebut menggunakan internet protocol sebagai layanan e-mail internal.
2.1.1. Sejarah E-Mail E-mail menunjang kelangsungan internet, sistem e-mail yang telah ada sekarang merupakan peralatan penting dalam perkembangan internet. MIT telah mulai mengembangkan Compatible Time-Sharing System (CTSS) pada tahun 1961 yang membuat banyak pengguna mampu mengakses kedalam sebuah IBM 7094 dari terminal yang jauh dan menyimpan dokumen kedalamnya. Kemampuan baru ini memotivasi banyak pengguna untuk berbagi informasi dalam bentuk yang baru pula. E-mail dimulai pada tahun 1965 sebagai cara bagi banyak pengguna untuk berkomunikasi melalui mainframe computer. Walaupun sejarah tepatnya tampak kabur, beberapa sistem yang telah memiliki fasilitas ini adalah Q32 milik SDC dan CTSS milik MIT.
9
10 E-mail lalu berkembang dengan pesat menjadi e-mail jaringan, yang memungkinkan pengguna untuk mengirimkan pesan melalui komputer yang berbeda. Pesan dapat dikirimkan diantara pengguna menggunakan komputer yang berbeda dimulai pada tahun 1966, tetapi sistem serupa bernama SAGE memungkinkan hal ini beberapa waktu sebelum tahun tersebut.
Jaringan komputer ARPANET memberikan kontribusi yang besar kepada evolusi email karena memungkinan transfer pesan diantara sistem yang berbeda pada tahun 1969. Ray Tomlison memulai penggunaan tanda @ untuk memisahkan antara nama pengguna dan mesin pada tahun 1971. ARPANET kemudian meningkatkan popularitas e-mail secara signifikan.
2.1.2. Format E-Mail Format dari sebuah pesan e-mail dari internet didefinisikan di RFC 2822 dan seri dari RFC yang secara keseluruhan disebut sebagai Multipurpose Internet Mail Extensions (MIME). Sebuah pesan e-mail terdiri dari dua bagian besar :
1. Header Disusun menjadi beberapa field, umumnya nama field dimulai pada karakter pertama pada suatu baris, diikuti oleh tanda ‘:’, diikuti oleh nilai non-null, bukan spasi atau bukan tab pada karakter pertamanya. Nama field dan nilainya masuk dalam karakter ASCII sebesar 7 bit. Bagian header dan body
11 dipisahkan oleh satu baris kosong. Pesan pada umumnya paling sedikit memiliki 4 field berikut :
a. From : Alamat e-mail dan terkadang diikuti nama pengirim pesan.
b. To : Alamat e-mail dan terkadang diikuti nama penerima pesan.
c. Subject : Rangkuman isi pesan.
d. Date : Waktu dan tanggal setempat saat pesan dikirim 1. 2. Body Pesan yang diterima berupa teks tanpa struktur, terkadang mengandung tanda pengenal di bagian akhir. Pada awalnya didesain menggunakan 7-bit ASCII, tapi sekarang sebagian besar menggunakan 8-bit, namun belum bersifat universal.
2.1.3. Mail Transfer Agent Sebuah mail transfer agent (disebut juga mail transport agent, mail server atau mail exchange server) adalah sebuah program komputer yang mentransfer pesan e-mail dari satu komputer ke komputer lainnya.
12 Sebuah mail transfer agent menerima pesan dari mail transfer agent lainnya, mail submission agent (MSA), atau langsung dari sebuah mail user agent (MUA) yang berperan sebagai sebuah MSA. Mail transfer agent bekerja di balik layar, sementara pengguna biasanya hanya berinteraksi dengan mail user agent.
Pengiriman e-mail ke mailbox pengguna umumnya terjadi karena perantaraan mail delivery agent (MDA); dimana sekarang telah banyak mail transfer agent yang telah memiliki fungsi dasar tersebut secara built-in, tetapi MDA yang dedicated seperti procmail dapat memberikan fitur – fitur yang lebih kompleks.
2.1.4. Ancaman e-mail Fungsionalitas e-mail dewasa ini terancam karena tiga fenomena, yaitu spamming, phishing dan e-mail worms.
E-mail worms menggunakan e-mail sebagai jalan untuk memperbanyak jumlah dan masuk kedalam komputer yang tidak terlindungi. Walaupun worm e-mail pertama menginfeksi sistem operasi UNIX, tapi masalah umum adalah infeksi worm terhadap sistem operasi Windows yang lebih popular.
13 Spam adalah e-mail komersial yang tidak diinginkan. Karena murahnya biaya mengirim e-mail, spammer (pihak penyebar spam) dapat mengirimkan ratusan juta pesan setiap hari melalui koneksi internet yang murah. Akibatnya bagi para pengguna adalah kelebihan beban (information overload) apabila menerima pesan tersebut dalam jumlah yang besar tiap harinya.
Kombinasi dari hal diatas menyebabkan fungsionalitas e-mail sebagai alat bantu menjadi berkurang. Kendati berbagai upaya seperti pengesahan hukum Can Spam Act of 2003 oleh Dewan Kongres Amerika Serikat untuk menindaklanjuti hal diatas, pemberantasan spam tetap menjadi kendala serius bagi sebagian masyarakat.
2.2 Spam Spamming adalah tindakan mengeksploitasi sistem pesan elektronik untuk mengirimkan pesan yang tidak diperlukan dan diinginkan. Bentuk spam yang paling dikenal luas adalah e-mail spam, istilah tersebut juga digunakan untuk tindakan eksploitasi pada media lainnya, misalnya instant messaging spam, usenet newsgrousp spam, web search engine spam, blog spam, dan mobile phone messaging spam.
Tindakan spamming sangat menguntungkan secara ekonomis karena pihak pengiklan tidak memiliki biaya operasi melebihi daftar target dan sulit untuk mencari pihak yang bertanggungjwab atas tindakan pengiriman pesan masal mereka. Karena hampir tidak memiliki halangan, jumlah pengirim spam sangat banyak dan
14 volume surat yang tidak diinginkan menjadi sangat tinggi. Konsekuensinya, seperti kehilangan produktivitas dan tindak penipuan menjadi umum dan merugikan para internet service provider, yang mana menambah kapasitas ekstra untuk ditanggulangi. Tindakan spamming telah dikenal luas dan telah menjadi topik di banyak lembaga hukum.
2.2.1. E-Mail Spam E-mail spam adalah bentuk paling umum dalam internet spamming yang menyangkut pengiriman surat yang tidak diinginkan kepada banyak penerima. Tidak seperti e-mail komersil secara resmi, spam secara rata – rata dikirimkan tanpa izin dari penerimanya dan seringkali mengandung berbagai trik untuk melewati sistem penyaringan sebuah e-mail.
Pengirim spam seringkali mendapatkan alamat – alamat e-mail dalam berbagai cara, seperti memunguti alamat dari postingan pengguna Usenet, daftar DNS, atau halaman-halaman web dan menebak alamat – alamat yang umum dari sebuah domain (juga dikenal dengan istilah serangan kamus atau dictionary attack), dan epending atau mencari alamat e-mail seseorang berdasarkan tempat tinggal orang tersebut. Banyak pengirim spam memanfaatkan aplikasi yang dikenal dengan sebutan web spider untuk menemukan sebuah alamat email pada sebuah halaman web.
15 Banyak pengirim spam menghabiskan banyak waktu untuk menyembunyikan asal pesan mereka. Mereka mungkin menggunakan sebuah teknik yang dikenal sebagai e-mail spoofing. Pengirim spam akan memodifikasi sebuah pesan e-mail hingga pesan tersebut terlihat seperti datang dari alamat e-mail yang lain. Tetapi, banyak pengirim spam gampang dikenali oleh penerimanya dengan menambahkan kata iklan pada kotak From. Pengirim spam juga akan berusaha menipu penyaring e-mail dengan cara sengaja salah mengeja kata – kata umum yang disaring spam filter. Misalnya, “viagra” dapat berubah menjadi “vaigra”, atau menambahkan simbol – simbol lain seperti “v/i/a/g/r/a”. Para penyedia jasa e-mail sendiri telah mulai untuk menggunakan test salah pengejaan sebagai salah satu proses penyaringan.
Pengirim spam yang berdedikasi sering memiliki penghasilan yang besar atau berkecimpung dalam aktivitas – aktivitas ilegal, seperti pornografi, perjudian atau bisnis penipuan Nigeria. Pemilik jasa ritel e-mail seringkali membekali pengguna dengan penyaring spam yang lebih maju dan menganalisa kemajuan teknologi pengirim spam dengan manganalisis e-mail yang dilaporkan pengguna mereka sebagai spam yang didapatkan sebagian besar dari tombol untuk melaporkan spam.
Spambot adalah pemroduksi e-mail spam mayoritas. Pengirim spam tingkat tinggi merekayasa virus e-mail yang membuat PC yang tak terlindungi menjadi ‘komputer zombi’ ; zombi ini akan mengirimkan informasi ke unit pusat atas keberadaannya, dan unit pusat akan memberikan perintah kepada ‘zombi’ tersebut untuk mengirimkan spam dalam volume yang rendah. Cara ini membolehkan pengirim
16 spam untuk mengirim e-mail dalam jumlah besar tanpa tertangkap oleh ISP mereka atau terlacak oleh petugas pengontrol spam.
Bill Gates, di Forum Ekonomi Dunia (World Economic Forum) Davos pada Januari 2004, memprediksikan bahwa teknologi dua tahun mendatang akan membuat spam “hal masa lalu”.
2.2.2. Penanggulangan Spam Pengguna komputer dapat meminimalisasi e-mail spam dengan berbagai cara berikut.
1. Pengguna dapat menggunakan filter e-mail tambahan pada komputer pribadi mereka masing – masing.
2. Administrator sistem atau pihak penyedia layanan dapat menggunakan perangkat yang tepat untuk memerangkap spam pada mail server dengan menggunakan piranti lunak tambahan ataupun perangkat lainnya.
3. Spam dapat dilaporkan ke ISP yang berwenang agar dapat ditindaklanjuti.
4. Memberikan alamat e-mail pribadi hanya kepada pihak – pihak yang memerlukan dan berhubungan dekat, dan menggunakan layanan e-mail umum sebagai alamat publik.
17 5. Dengan meminta pengguna lain untuk tidak memasukkan alamat e-mail kita kedalam kolom “To” atau “cc” saat mengirimkan e-mail ke berbagai akun sekaligus.
6. Dengan membuat sebuah alamat unik untuk tiap individu atau tempat yang ingin dikelompokkan. Hal ini dapat dilakukan menggunakan layanan online mail forwarding, atau dengan memiliki hak akses ke mail server pribadi. Jika spam diterima oleh salah satu dari alamat – alamat tersebut, kita akan segera mengetahui di bagian mana kebocoran alamat terjadi, dan selanjutnya menutup akun yang telah terinfeksi tadi.
7. Pengguna dapat mengambil tindakan pencegahan untuk menghindari penyebaran informasi alamat e-mail mereka secara sembarangan, seperti menggunakan formulir e-mail yang tidak menunjukkan alamat saat dibaca kode sumbernya, atau menggunakan identitas palsu.
8. Menggunakan piranti anti-virus dan anti-spyware yang diperbaharui secara berkala untuk mengurangi resiko pembajakan komputer oleh virus dan email worms yang akan menjadikan akun e-mail pengguna sebagai mesin pengirim spam.
9. Pengguna juga disarankan untuk mengkonfigurasi akun mereka untuk menonaktifkan fitur rich content seperti surat berbentuk HTML atau
18 pengunduhan gambar secara otomatis. Gambar yang diunduh dapat disalahgunakan oleh spammer untuk mengidentifikasi alamat e-mail korban.
10. Secara berkala melakukan pencarian kebocoran alamat e-mail dan apabila diperlukan, menggunakan bantuan administrator website yang ber-sangkutan untuk menghapus akun yang telah terinfeksi.
Yang pada intinya merupakan tindakan penyembunyian alamat pengguna dari jangkauan spammer, secara langsung maupun tidak langsung.
2.3. Intelijensia Semu Beberapa definisi mengenai Intelijensia Semu (Russel,p5), antara lain :
1. Sistem yang dapat berpikir seperti manusia Proses yang paling menarik dari Intelijensia Semu adalah menciptakan mesin yang mempunyai ‘otak’. “The exciting effort to make computers think...machine with minds, in the full and literal sense.” (Haugeland,1985). Alan Turing (1950) menciptakan ‘Turing Test’ sebagai acuan klasifikasi mesin cerdas.
19 2. Sistem yang dapat berpikir secara rasional Penerapan secara mental digunakan untuk model komputasi. “The study of mental faculties through the use of computational model.” (Charniak,1985). Dan Winston menambahkan pembelajaran komputasi menggunakan mental untuk dapat memperkirakan, berpikir dan bertindak. “The study of the computations that make it possible to perceive, reason and act.”
3. Sistem yang dapat bertindak seperti manusia Menurut Rich dan Knight, pembuatan komputer diarahkan untuk dapat melakukan tindakan – tindakan dimana manusia masih dapat melakukannya dengan baik. “The study of how to make computers do things at which, at the moment, people are better.”
4. Sistem yang dapat bertindak secara rasional Intelijensia Semu merupakan cabang ilmu dari ilmu komputer yang mendalami tentang otomasi dari perilaku kecerdasan. “The branch of computer science that is concerned with the automation of intelligence behaviour.” (Luger,1993)
2.3.1. Bidang Aplikasi Intelijensia Semu Dilihat dari fungsinya, intelijensia semu banyak diterapkan diberbagai bidang (Rich & Knight, p5), antara lain :
20 1. Natural Languange Processing and Understanding Pemahaman dengan bahasa sehari – hari, seperti Bahasa Inggris dan Bahasa Indonesia. Untuk memahami bahasa alami dilakukan banyak pemilahan terhadap kalimat menjadi bagian – bagian pengucapan dan proses melihat kamus (Knowledge Base).
2. Expert System Sistem yang dibuat dengan memperoleh informasi atau pengetahuan dari pakar dan mentransformasikannya menjadi bentuk yang dimengerti oleh komputer. Dalam hal ini, baik buruknya suatu sistem pakar sangat bergantung pada informasi yang dimiliki. Selain itu juga bergantung pada bagaimana komputer dapat mengerti permasalahan dan memperoleh jawabannya.
3. Game Pada umumnya pemainan merupakan sekumpulan aturan. Dalam permainan digunakan suatu pola pencarian ruang keadaan (state space search) dimana permainan akan menghasilkan sejumlah pencarian ruang. Untuk memperoleh hasil terbaik digunakan heuristik. Dalam permainan, komputer dapat bertindak seolah-olah dijalankan oleh manusia, dimana dapat berpikir dan menganalisa setiap langkah.
21 2.4. Statistika Statistika adalah bagian bidang ilmu matematis yang berperan dalam pengumpulan, analisis, interpretasi, dan presentasi data. Statistik dapat diaplikasikan kedalam bidang ilmu yang beragam, mulai dari fisika dan ilmu sosial hingga bidang kemanusiaan; juga digunakan untuk membuat keputusan dalam semua bidang bisnis dan pemerintahan.
Metode – metode statistik dapat digunakan untuk mendiskripsikan atau menyimpulkan sebuah kumpulan data; metode ini disebut sebagai descriptive statistics (statistika deskriptif). Terlebih lagi, pola didalam data dapat dimodelkan dalam cara yang dapat memuat tingkat acak dan ketidakpastian dalam proses pengamatan, untuk menggambarkan proses inferensi dan proses pembelajaran populasi; metode ini disebut inferential statistics (statistika inferensial). Baik statistika deskriptif maupun statistika inferensial dapat digolongkan kedalam bagian dari applied statistics (statistika terapan).
2.4.1. Likelihood Ratio Pengujian rasio kemiripan (likelihood ratio test) adalah sebuah pengujian statistik dimana rasio dihitung diantara maksimum dari sebuah likelihood function dibawah null hypotesis dan maksimum dari batasannya. Test statistik serupa seperti Z-test, Ftest, G-test dapat digolongkan sebagai log-likelihood ratio.
22 Model statistik sering kali adalah keluarga parameter dari fungsi probabilitas kepadatan atau fungsi probabilitas bobot
fθ(x). Sebuah null hypotesis sering
dituliskan dengan mengatakan bahwa parameter θ masuk kedalam subset Θ0 dari ruang paramter Θ. Fungsi kemiripannya (likelihood function) adalah L(θ) = L(θ| x) = p(x|θ) = fθ(x) yang merupakan fungsi dari parameter θ dengan x yang tetap pada sebuah nilai yang sedang diamati, misalnya sebuah data. Maka ratio kemiripannya adalah
2.4.2. Teori Probabilitas Metode – metode matematis dari statistika muncul dari teori probabilitas, yang dapat diketahui dari korespondensi Pierre de Fermat dan Blaise Pascal (1654). Christian Huygens(1657) memberikan penjelasan ilmiah yang paling awal tentang teori probabilitas. Ars Conjectandi(posthumous,1713) karangan Jakob Bernoulli dan Doctrine of Chances (1718) karangan Abraham de Moivre memperlakukan teori probabilitas sebagai cabang dari ilmu matematika.
Pierre-Simon Laplace (1774) melakukan percobaan pertama untuk mendeduksi sebuah aturan untuk menggabungkan pengamatan – pengamatan tentang prinsip dari teori – teori probabilitas. Dia merepresentasikan hukum probabilitas kesalahan kedalam sebuah kurva. Ia menghasilkan sebuah formula untuk menghitung rata – rata dari tiga pengamatan.
23 Adolphe Quetelet (1796-1874), salah satu penemu penting di bidang statistika, memperkenalkan istilah l’homme moyen (manusia rata – rata) sebagai usaha untuk mencapai pengertian mengenai fenomena sosial yang kompleks seperti tingkat kriminalitas, tingkat pernikahan, dan tingkat bunuh diri.
Sejauh ini, telah dikenal beberapa teknik yang digunakan untuk menggambarkan model kepercayaan, dimana ada dua kondisi nyata yang didapatkan, yaitu sebagian fakta yang dipercaya benar (true), dan yang dipercaya salah (false). Misalnya untuk memecahkan masalah yang mampu menjelaskan tingkat kepercayaan yang tak tentu tetapi ada beberapa bukti (evidence) yang mendukung masalah tersebut.
Dalam beberapa situasi memecahkan suatu masalah, pengetahuan yang tersedia tidak lengkap atau tidak tepat, misalnya seperti suatu prediksi dan diagnosa medis. Dalam kasus seperti itu, pengetahuan yang ada tidak mencukupi untuk mendukung urutan yang diperlukan untuk mengambil kesimpulan logis. Meskipun pengetahuan yang kita miliki tidak lengkap, kita dapat membuat dan menggunakan generalisasi dan pendekatan yang membantu kita untuk menyimpulkan pengalaman kita dan meramalkan sesuatu yang belum diketahui.
Teori probabilitas membuat jadi mungkin sebuah sistem intelijensia semu untuk menggunakan pengetahuan yang tak tentu atau probabilitas dan dapat membantu kita mengumpulkan bukti untuk melakukan hipotesis; merupakan alat yang tepat untuk mengambil keputusan. Teori pengambilan keputusan, berhubungan dengan
24 teori
probabilitas,
yang
menyediakan
teori
tambahan
untuk
membantu
meminimalisasi resiko dalam pengambilan keputusan.
2.4.2.1. Aksioma Teori Probabilitas Probabilitas P dari sebuah kejadian E, disimbolkan dengan P(E), didefinisikan kepada sebuah ‘alam semesta’, atau ruang sampel Ω, dari semua kemungkinan kejadian dalam bentuk P harus memenuhi aksioma – aksioma Kolmogorov.
Interpretasi lain terhadap sebuah probabilitas adalah sebuah pengukuran pada sebuah σ-algebra yang merupakan subset dari ruang sampel, dimana subset disini berperan sebagai kejadian – kejadian, yang apabila diukur kesemuanya akan berjumlah 1. Sifat ini penting, mengingat sifat ini memunculkan konsep alamai dari probabilitas bersyarat (conditional probability). Setiap set A dengan probabilitas tidak-nol (P(A)>0) mendefinisikan probabilitas lain.
pada ruang tersebut. Pernyataan ini biasanya dibaca sebagai “probabilitas B jika diberikan A”. Jika probabilitas bersyarat dari B jika diberikan A adalah sama dengan probabilitas B, maka A dan B dikatakan independen.
25 Dalam kasus ruang sampel yang terbatas atau dapat dihitung, fungsi probabilitas dapat juga didefinisikan dengan nilainya atas kejadian – kejadian {e1},{e2},... dimana
2.4.2.2. Aksioma Kolmogorov Tiga aksioma berikut dikenal juga dengan sebutan aksioma Kolmogorov, diambil dari nama penelitinya, yaitu Andrey Kolmogorov. Kita memiliki sekumpulan Ω, sebuah aljabar-sigma F dari subset Ω, dan sebuah fungsi P yang mengisi anggota himpunan F dengan bilangan riil. Anggota himpunan F adalah subset Ω yang disebut ‘kejadian’.
1. Aksioma Pertama Untuk setiap
, untuk setiap kejadian E, didapat
. Yang
adalah kemungkinan sebuah kejadian berupa nilai riil tidak-nol.
2. Aksioma Kedua
Adalah probabilitas beberapa kejadian dalam seluruh sampel yang akan terjadi adalah 1. Secara lebih spesifik, tidak ada kejadian yang berada diluar bilangan sampel.
26 Hal ini sering diabaikan dalam beberapa perhitugnan probabilitas yang salah, jika semua set sampel tidak dapat didefinisikan secara tepat, maka probabilitas untuk setiap subsetnya juga tidak dapat didefinisikan.
3. Aksioma Ketiga Setiap sekuensi dari pasangan kejadian disjoint E1,E2,... yang dapat dihitung, memenuhi
. Pernyataan diatas adalah probabilitas sebuah set kejadian dimana gabungan dari gubset lain yang disjoint adalah jumlah seluruh probabilitas subset tersebut.
2.5. Teorema Bayes Tujuan yang penting untuk beberapa sistem pemecahan masalah adalah mengumpulkan bukti pada sistem yang berjalan dan untuk memodifikasi perilaku dasar dari bukti tersebut. Untuk memodelkan perilaku ini, kita membutuhkan teori statistik dari bukti tersebut. Statistik Bayesian merupakan teori tersebut. Dugaan dasar dari statistik Bayesian yaitu probabilitas bersyarat (conditional probabilities).
Probabilitas terjadinya A apabila terjadi B adalah
27 Begitu juga sebaliknya, probabilitas terjadinya B apabila terjadi A adalah
Setelah menyusun ulang dan menggabungkan dua persamaan diatas, kita dapatkan
Setelah membagi kedua sisi dengan Pr(B) yang tidak nol, kita dapatkan Teorema Bayes :
Atau dapat kita jumpai bentuk lainnya, yaitu
28 2.5.1. Aplikasi Probabilitas Bayes Sejak tahun 1950-an, teori Bayes dan probabilitas Bayes telah diterapkan secara luas melalui teorema Cox, Jayne’s principle of maximum entropy dan Dutch book argument.Dalam berbagai penerapan, metode – metode Bayesian bersifat lebih umum dan tampaknya memberikan hasil yang lebih baik daripada frequency probability (probabilitas frekuensi). Beberapa faktor Bayes juga diterapkan dengan Occam’s Razor.
Beberapa memandang inferensi Bayes sebagai sebuah aplikasi dari metode sains karena memperbaharui probabilitas melalui inferensi Bayes memerlukan sebuah nilai awal terhadap hipotesis – hipotesis yang berbeda, untuk mengumpulkan informasi baru, dan untuk menyesuaikan kepercayaan awal dalam pandangan informasi yang baru. Menyesuaikan kepercayaan awal dapat berarti mendekati menerima atau menolak hipotesis – hipotesis awal.
2.5.2. Naive Bayes Classifier Naive Bayes Classifier adalah sebuah pengklasifikasi probabilitas sederhana yang didasarkan pada penerapan Teorema Bayes dengen menggunakan asumsi independensi yang kuat. Istilah yang lebih cocok digunakan untuk model probabilitas ini adalah independent feature model.
Bergantung pada ketepatan alami dari model probabilitas itu sendiri, naive Bayes classifier dapat dilatih dengan sangat efisien dalam sebuah supervised learning.
29 Dalam banyak aplikasinya, perkiraan parameter dalam model ini menggunakan metode kemiripan maksimum (maximum likelihood), dengan kata lain, seseorang dapat bekerja dengan model ini tanpa menggunakan probabilitas Bayesian dan metode Bayesian manapun.
Terlepas dari desain mereka yang naif dan terkesan memiliki asumsi yang sangat sederhana, naive Bayes classifier seringkali bekerja lebih baik dalam banyak situasi dunia nyata yang lebih kompleks daripada yang kita perkirakan. Belakangan ini, analisis mendalam mengenai masalah klasifikasi Bayesian telah menunjukkan bahwa model ini memiliki alasan teoritis, walaupun model ini terkesan tidak beralasan.
2.6. Klasifikasi Dokumen Pengklasifikasian dokumen adalah sebuah masalah dalam teknologi informasi. Tujuannya adalah menggolongkan sebuah dokumen elektronik kedalam satu atau lebih kategori berdasarkan dari isi dokumen. Pengklasifikasian dokumen dapat dibagi menjadi dua jenis : supervised document classification, dimana mekanisme eksternal (misalnya umpan balik manusia) memberikan informasi bagi klasifikasi yang benar untuk dokumen tertentu, dan unsupervised document classification, dimana proses klasifikasi dilakukan tanpa referensi dari informasi eksternal.
30 Teknik – teknik dalam pengklasifikasian dokumen antara lain :
1. Naive Bayes classifier Sebuah pengklasifikasi probabilitas sederhana yang didasarkan pada penerapan Teorema Bayes dengen menggunakan asumsi independensi yang kuat. Istilah yang lebih cocok digunakan untuk model probabilitas ini adalah independent feature model.
2. Tf-idf Sebuah satuan berat yang sering digunakan dalam pengambilan informasi dan text mining. Satuan berat ini adalah sebuah pengukuran statistik yang digunakan untuk menilai seberapa penting sebuah kata didalam sebuah dokumen. Prioritasnya meningkat bertahap sejumlah banyak kata tersebut muncul didalam sebuah dokumen tapi lebih mengarah ke seberapa umum kata tersebut didalam setiap dokumen dalam satu kelompok. tf-idf sering digunakan oleh search engine untuk mencari dokumen yang paling relevan dengan apa yang dicari pengguna.
3. Latent semantic indexing (LSI) Atau latent semantic analysis (LSA), sebuah teknik dalam natural languange processing,
memiliki
kemiripan
dengan
vectorial
semantics,
yang
dipantenkan tahun 1988 oleh Scott Deerwester, Susan Dumais, George
31 Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum dan Lynn Streeter. Berguna dalam aplikasi pengambilan informasi.
4. Support vector machines (SVM) Adalah sekumpulan metode yang berhubungan dengan supervised learning yang digunakan dalam klasifikasi dan regresi. Ciri umumnya adalah penggunaan teknik yang dikenal sebagai “kernel trick” untuk menerapkan teknik klasifikasi linear untuk problem-problem klasifikasi non linear.
5. Artificial neural network (ANN) Sekumpulan neuron buatan yang saling terhubung satu sama lain yang menggunakan model matematis atau model komputasi untuk memproses informasi berdasarkan pada pendekatan subyektif terhadap perhitungan. Dalam kebanyakan kasus, sebuah ANN adalah sistem yang dapat beradaptasi dan merubah strukturnya sesuai dengan informasi yang mengalir melalui jaringannya.
6. kNN dalam
pengenalan
pola,
kNN
adalah
sebuah
metode
untuk
mengklasifikasikan objek – objek berdasarkan sampel training terdekat yang berada di ruang variabelnya.
32 7. Concept mining Sebuah ilmu yang berhubungan dengan data mining dan text mining dan merupakan cabang ilmu dari intelijensia semu dan matematika. Terdapat hubungan yang kuat antara Concept Mining dan Linguistic. Concept mining bertujuan mengekstrak informasi dari sebuah dokumen menggunakan metode statistik dan inferensi yang dihasilkan dari sebuah concept dalam dokumen.
2.7. Interaksi Manusia dan Komputer Interaksi Manusia dan Komputer adalah sebuah cabang ilmu yang mempelajari perancangan, evaluasi, dan implementasi sistem komputer interaktif untuk digunakan oleh manusia, serta studi fenomena-fenomena besar yang berhubungan dengannya (Shneiderman, 1998, p8).
2.7.1. Tujuan Interaksi Manusia dan Komputer Sistem yang efektif akan menghasilkan rasa keberhasilan, kompetensi, penguasaan, dan kejelasan dalam komunitas pemakai. Tujuan dari rekayasa sistem IMK adalah untuk menghasilkan sistem dengan (Shneiderman, 1998, p9-14).
1. Fungsionalitas yang sebenarnya Sistem dengan fungsionalitas yang kurang memadai akan mengecewakan pemakai dan sering ditolak atau tidak digunakan. Sedangkan sistem yang
33 berlebihan akan menyebabkan kesulitan dalam implementasi, pemeliharaan, dan penggunaan. 2. Kehandalan, ketersediaan, keamanan, dan integritas data a. Kehandalan (reliability): berfungsi seperti yang diinginkan. b. Ketersediaan (availability): tersedia ketika hendak digunakan. c. Keamanan (security): terlindung dari akses yang tidak diinginkan dan kerusakan yang disengaja. d. Intergritas data (data integrity): keutuhan data terjamin.
3. Standarisasi, integrasi, konsistensi, dan portabilitas a. Standarisasi: keseragaman sifat-sifat antarmuka pemakai pada aplikasi yang berbeda, misalnya dengan menggunakan standar industri yang ada. b. Integrasi: keterpaduan antar paket aplikasi dan software tools. c. Konsistensi: keseragaman dalam suatu program aplikasi. d. Portabilitas: dimungkinkan data dikonversi pada berbagai hardware dan software.
4. Penjadwalan dan anggaran Perencanaan yang hati-hati dan manajemen yang berani diperlukan karena proyek harus sesuai dengan jadwal dan dalam anggaran.
34 2.7.2. Delapan Aturan Emas Untuk merancang antarmuka pemakai yang interaktif diperlukan suatu aturan tertentu, yaitu (Shneiderman, 1998, p74-75)
1. Strive for consistency Harus selalu berusaha konsisten dalam merancang tampilan.
2. Enabled frequent to use shortcuts Umumnya
user
yang
sudah
sering
menggunakan
aplikasi
lebih
menginginkan kecepatan dalam mengakses fungsi tersebut. Untuk itu, perlu disediakan tombol khusus.
3. Offer informative feedback Umpan balik harus diberikan untuk memberikan informasi kepada user sesuai dengan action yang dilakukannya. User akan mengetahui action apa yang telah dan akan dilakukan dengan adanya umpan balik ini. Umpan balik bisa berupa konfirmasi atau informasi atau suatu action. Misalnya setelah melakukan fungsi simpan dapat diberikan informasi bahwa data telah disimpan.
35 4. Design dialog to yield closure Akhir dari suatu proses dan action dimana user akan mendapat sinyal untuk melakukan action lainnya. Misalnya pada saat akan menutup suatu program akan ditampilkan konfirmasi penutupan.
5. Offer simple error handling Sistem dirancang agar dapat mencegah user dalam membuat kesalahan. Contohnya, penggunaan menu seleksi untuk membatasi input dari user, validasi pengisian data pada form agar data yang di isi sesuai dengan ketentuan. Bila terjadi kesalahan, sistem harus dapat memberikan instruksi yang sederhana, konstruktif, dan spesifik untuk perbaikan.
6. Permit easy reversal of actions Terkadang user tidak sengaja melakukan action yang tidak diinginkan, untuk itu user ingin melakukan pembatalan. Sistem harus memberikan fungsi pembatalan ini. User akan merasa lebih aman dan tidak takut dalam mencoba dan memakai sistem tersebut.
7. Support internal locus of control User yang sudah berpengalaman menginginkan suatu perasaan bahwa mereka menguasai sistem dan sistem harus merespon semua keinginan mereka. Sistem yang tidak terduga dan sulit dalam melakukan action akan menyulitkan user.
36
8. Reduce short-term memory load Keterbatasan ingatan pada manusia harus ditanggulangi oleh program, sehingga sistem harus memberikan kemudahan kepada user dengan cara mengingatkan.
2.8. Bahasa Pemrograman Bahasa pemrograman (programming languange) adalah sebuah bahasa buatan yang dapat digunakan untuk mengontrol perilaku dari sebuah mesin, khususnya komputer. Bahasa pemrograman, seperti bahasa manusia, didefinisikan melalui penggunaan peraturan sintaksis dan semantik, untuk menjelaskan struktur dan artinya.
Bahasa pemrograman digunakan untuk memfasilitasi komunikasi tentang pekerjaan mengatur dan memanipulasi informasi, dan untuk mengekspresikan sebuah algoritma secara akurat. Beberapa penulis membatasi istilah ‘bahasa pemrograman’ hanya kepada bahasa yang mampu mengekspresikan semua algoritma yang mungkin, terkadang istilah ‘bahasa pemrograman’ digunakan untuk bahasa artifisial yang lebih terbatas kemampuannya. Ribuan bahasa pemrograman telah diciptakan, dan bahasa yang baru terus bermunculan tiap tahun.
2.8.1. PHP PHP (Hypertext Preprocessor) adalah bahasa pemrograman reflektif yang sebenarnya dirancang untuk memproduksi halaman web yang dinamis. PHP
37 sebagian besar digunakan dalam aplikasi piranti lunak yang bersifat server-side, tetapi dapat juga digunakan melalui tampilan command line ataupun aplikasi visual yang mandiri.
PHP bersaing dengan bahasa pemrograman lainnya seperti Perl, Ruby, dan Phyton; pada Desember 2006, PHP menduduki peringkat kelima, turun dari peringkat keempat pada tahun lalu, yang dinobatkan oleh TIOBE Programming Community Index. Peringkat tersebut didasarkan pada ketersediaan praktisi, kelas dan vendor secara internasional.
2.9. Database Istilah database berasal dari bagian dalam industri komputer. Walaupun artinya telah menjadi lebih luas karena penggunaanya yang populer, hingga meliputi database – database non-elektronik. Definisi yang mungkin mengenai database adalah sebuah koleksi dari catatan – catatan atau informasi yang disimpan didalam sebuah komputer dalam urutan yang sistematis (terstruktur), hingga sebuah program komputer dapat mengaksesnya untuk menjawab pertanyaan – pertanyaan. Data – data yang diambil sebagai jawaban dari proses query berubah menjadi informasi yang dapat digunakan untuk membuat keputusan. Program komputer yang bertugas mengelola dan melakukan proses query database dikenal juga dengan database management system (DBMS). Pembelajaran desain sistem database juga dimasukkan kedalam proses pembelajaran teknologi informasi
38 2.9.1. MySQL. MySQL adalah sebuah Database Management System (DBMS) SQL yang memiliki fitur multi-thread dan multi-user. MySQL dimiliki dan disponsori oleh firma tunggal dari Swedia bernama MySQL AB, yang memegang hakcipta sebagian besar kode. Perusahaan tersebut mengembangkan dan menjaga kelangsungan sistem, menjual bantuan dan kontrak layanan, juga menjual software MySQL berlisensi dan mempekerjakan penduduk dari seluruh dunia untuk bekerja sama melalui internet. MySQL AB didirikan oleh David Axmark, Allan Larsson dan Michael Widenius. Perusahaan MySQL juga menjual DBMS lain bernama MaxDB yang memiliki basis kode berbeda dengan MySQL.