5
BAB 2 LANDASAN TEO RI
2.1 Teori-teori Umum 2.1.1 Aplication Aplikasi adalah penggunaan atau penerapan suatu konsep yang menjadi pokok pembahasan. Aplikasi dapat diartikan juga sebagai program komputer yang dibuat untuk menolong manusia dalam melaksanakan t ugas tertentu. Aplikasi software yang dirancang unt uk penggunaan praktisi khusus, klasifikasi luas ini dapat dibagi menjadi dua yaitu: 1. Aplikasi software spesialis, program dengan dokumentasi tergabung yang dirancang unt uk menjalankan tugas tertentu. 2. Aplikasi paket, suatu program dengan dokumentasi tergabung yang dirancang unt uk jenis masalah tertentu.
2.1.2 Handphone Handphone adalah perangkat telekomunikasi elektronik yang mempunyai kemampuan dasar yang sama dengan telepon konvensional saluran tetap, namun dapat dibawa ke mana-mana (portabel, m obile) dan tidak perlu disam bungkan dengan jaringan telepon menggunakan kabel (nirkabel; wireless). Saat ini ada dua jaringan telepon nirkabel yaitu sistem GSM (Global System for Mobile Telecomm unications) dan sistem CDMA (Code Division Multiple Access).
2.1.3 Short Message Service Short Message Service adalah transmisi layanan pesan singkat ke dan dari ponsel, mesin
faks, dan
/ atau
dari 160 karakter alfanumerik dan
alamat tidak
IP. Pesan
harus tidak
lebih
mengandung gambar atau grafis.
Short Message Service adalah sistem pesan yang relatif sederhana yang disediakan oleh jaringan telepon seluler. SM S didukung oleh GSM(Global
6
System for Mobile Telecom m unications), dan CDMA (Code Division Multiple Access) berbasis jaringan telepon selular yang sedang digunakan.
2.1.4 Aljabar Linier Aljabar linear adalah bidang st udi matematika yang mempelajari sistem persamaan linear dan solusinya, vektor, serta transformasi linear. Matriks dan operasinya juga merupakan hal yang berkaitan erat dengan bidang aljabar linear. Sebuah sistem persamaan linier dapat dikatakan homogen apabila mempunyai bentuk : a11x1 + a12x2 + ... + a1nxn = 0 a21x1 + a22x2 + ... + a2nxn = 0 am1x1 + am2x2 + ... + amnxn = 0 Setiap sistem persamaan linier yang homogen bersifat tetap apabila semua sistem mepunyai x1 = 0 , x2 = 0 , ... , xn = 0 sebagai penyelesaian. Penyelesaian ini disebut solusi trivial. Apabila mempunyai penyelesaian yang lain maka disebut solusi nontrivial. 1. Penyelesaian Persamaan Linear dengan Matriks A. Bentuk Eselon-baris Matriks dapat dikatakan Eselon-baris apabila memenuhi persyaratan berikut : 1) Di setiap baris, angka pertama selain 0 harus 1 (leading 1). 2) Jika ada baris yang semua elemennya nol, maka harus dikelompokkan di baris akhir dari matriks. 3) Jika ada baris yang leading 1 maka leading 1 di bawahnya, angka 1-nya harus berada lebih kanan dari leading 1 di atasnya. 4) Jika kolom yang memiliki leading 1 angka selain 1 adalah nol maka matriks tersebut disebut Eselon-baris tereduksi.
7
B. O perasi Eliminasi Gauss Elim inasi Gauss adalah suatu cara mengoperasikan nilai-nilai di dalam matriks sehingga menjadi matriks yang lebih sederhana (ditemukan oleh Carl Friedrich Gauss). Caranya adalah dengan melakukan operasi baris sehingga matriks tersebut menjadi matriks yang Eselon-baris. Ini dapat digunakan sebagai salah sat u metode penyelesaian persamaan linear dengan menggunakan matriks. Caranya dengan mengubah persamaan
linear
mengoperasikannya.
tersebut
ke dalam matriks teraugmentasi dan
Setelah
menjadi
matriks Eselon-baris,
lakukan substitusi balik untuk mendapatkan nilai dari variabel-variabel tersebut.
8
C . O perasi Eliminasi Gauss-Jordan Eliminasi Gauss-Jordan adalah pengembangan dari eliminasi Gauss yang hasilnya lebih sederhana. Caranya adalah dengan meneruskan operasi baris dari eliminasi Gauss sehingga menghasilkan matriks yang Eselon-baris tereduksi. Ini juga dapat digunakan sebagai salah satu metode penyelesaian persamaan linear dengan menggunakan matriks. Caranya dengan mengubah persamaan linear tersebut ke dalam matriks teraugmentasi dan mengoperasikannya. Setelah menjadi matriks Eselon-baris tereduksi, maka langsung dapat ditentukan nilai dari variabel-variabelnya tanpa substitusi balik.
9
D. O perasi Dalam Matriks Dua buah matriks dikatakan sama apabila matriks-matriks tersebut mempunyai ordo yang sama dan setiap elemen yang seletak sama. Jika A dan B adalah matriks yang mempunyai ordo sama, maka penjumlahan dari A + B adalah matriks hasil dari penjumlahan elemen A dan B yang seletak. Begitu pula dengan hasil selisihnya. Matriks yang mempunyai ordo berbeda tidak dapat dijumlahkan atau dikurangkan. Jumlah dari k buah matriks A adalah suatu matriks yang berordo sama dengan A dan besar tiap elemennya adalah k kali elemen A yang seletak. Didefinisikan: Jika k sebarang skalar maka kA = Ak adalah matriks yang diperoleh dari A dengan cara mengalikan setiap elemennya dengan k. Negatif dari A atau -A adalah matriks yang diperoleh dari A dengan cara mengalikan semua elemennya dengan -1. Untuk setiap A berlaku A + (-A) = 0. Hukum yang berlaku dalam penjumlahan dan pengurangan matriks : a. A + B = B + A b. A + ( B + C ) = ( A + B ) + C c. k ( A + B ) = kA + kB = ( A + B ) k , k = skalar Hasil kali matriks A yang ber-ordo m x p dengan matriks B yang berordo p x n dapat dituliskan sebagi matriks C = [ cij ] berordo m x n dimana cij = ai1 b1j + ai2 b2j + ... + aip bpj
2. Matriks Balikan (Invers) JIka A dan B matriks bujur sangkar sedemikian rupa sehingga A B = B − 1 A, maka B disebut balikan atau invers dari A dan dapat dituliskan B = A − 1
( B sama dengan invers A ). Matriks B juga mempunyai invers yaitu A
maka dapat dit uliskan A = B − 1. Jika tidak ditemukan matriks B, maka A
10
dikatakan matriks tunggal (singular). Jika matriks B dan C adalah invers dari A maka B = C.
Matriks A =
dapat di-invers apabila ad - bc ≠ 0
Dengan Rum us =
Apabila A dan B adalah matriks seordo dan memiliki balikan maka AB dapat di-invers dan (AB) − 1 = B − 1A – 1
3. Transpose Matriks Yang dimaksud dengan Transpose dari suatu matriks adalah mengubah komponen-komponen dalam matriks, dari yang baris menjadi kolom dan yang kolom di ubah menjadi baris.
4. Matriks Diagonal, Segitiga, dan Matriks Simetris A. Matriks Diagonal Sebuah matriks bujursangkar yang unsur-unsurnya berada di garis diagonal utama dari matriks bukan nol dan unsur lainnya adalah nol disebut dengan matriks diagonal. secara umum matriks n x n bisa dit ulis sebagai
11
B. Matriks Segitiga Matriks segitiga adalah matriks persegi yang di bawah atau di atas garis diagonal utama nol. Matriks segitiga bawah adalah matriks persegi yang di bawah garis diagonal utama nol. Matriks segitiga atas adalah matriks persegi yang di atas garis diagonal utama nol. Matriks segitiga
Matriks segitiga bawah
C . Matriks Simetris Matriks kotak A disebut simetris jika A = AT Contoh matriks simetris
D. Determinan Determinan adalah suatu fungsi tertentu yang menghubungkan suat u bilangan real dengan suatu matriks bujursangkar. Sebagai contoh, kita ambil matriks A2x2
12
A=
tentukan determinan A
untuk mencari determinan matrik A maka, detA = ad – bc
2.2 Teori-teori Khusus 2.2.1 Artificial Inteligent Artificial Intelligence (Kusumadewi 2003,pp1-3) merupakan salah sat u bagian ilmu komputer yang membuat mesin dapat melakukan pekerjaan seperti dan sebaik yang dilakukan oleh manusia. Pada awal diciptakannya, komputer hanya difungsikan sebagai alat hitung saja. Seiring dengan perkembangan
zaman,
maka peran
komputer
semakin
mendominasi
kehidupan umat manusia. Komputer tidak lagi hanya digunakan sebagai alat hitung, lebih dari it u komputer diharapkan untuk dapat diberdayakan untuk mengerjakan segala sesuatu yang bisa dikerjakan oleh manusia. Manusia bisa menjadi pandai dalam menyelesaikan segala permasalahan di dunia ini karena manusia mempunyai pengetahuan dan pengalaman. Pengetahuan diperoleh dari belajar, semakin banyak bekal pengetahuan yang dimiliki oleh seseorang tentu saja diharapkan akan lebih mampu dalam menyelesaikan permasalahan. Namun bekal pengetahuan saja tidak cukup, manusia juga diberi akal untuk melakukan penalaran, mengambil kesimpulan berdasarkan pengetahuan dan pengalaman yang mereka miliki. Tanpa memiliki kemampuan untuk menalar dengan baik, manusia dengan segudang pengalaman dan pengetahuan tidak akan dapat menyelesaikan masalah dengan baik. Demikian pula, dengan kemampuan menalar yang sangat baik, namun tanpa bekal pengetahuan dan pengalaman yang memadai, manusia juga tidak akan bisa menyelesaikan masalah dengan baik. Agar komputer bisa bertindak seperti dan sebaik manusia, maka komputer juga harus diberi bekal pengetahuan, dan mempunyai kemampuan untuk menalar. Untuk itu pada Artificial Intelligence, akan mencoba untuk
13
memberikan beberapa metoda untuk membekali komputer dengan kedua komponen tersebut agar komputer bisa menjadi mesin yang pintar. Lebih detailnya, pengertian kecerdasan buatan dapat dipandang dari berbagai sudut pandang, antara lain: 1. Sudut pandang kecerdasan Kecerdasan buatan akan membuat mesin menjadi “cerdas” (mampu berbuat seperti apa yang dilakukan oleh manusia) 2. Sudut pandang penelitian Kecerdasan buatan adalah suatu studi bagaimana membuat komputer dapat melakukan sesuatu sebaik yang dikerjakan oleh manusia. Domain yang sering dibahas oleh para peneliti meliputi: a. Mundane task ‐ Persepsi (vision & speech). ‐ Bahasa Alami (understanding, generation & translation). ‐ Pemikiran yang bersifat comm onsense. ‐ Robot control.
b. Form al task ‐ Permainan/gam es. ‐ Matematika (geometri, logika, kalkulus integral & pembuktian).
c. Expert task ‐ Analisis finansial. ‐ Analisis medikal. ‐ Analisis ilmu pengetahuan. ‐ Rekayasa (desain, pencarian kegagalan, perencanaan, manufaktur).
14
3. Sudut pandang bisnis. Kecerdasan buatan adalah kumpulan peralatan yang sangat kuat dan metodologis dalam menyelesaikan masalah-masalah bisnis. 4. Sudut pandang pemrograman. Kecerdasan buatan meliputi studi tentang pemrograman simbolik, penyelesaian masalah dan pencarian. Untuk melakukan aplikasi kecerdasan buatan ada dua bagian utama yang sangat dibutuhkan, yaitu: a. Knowledge Base, berisi fakta-fakta, teori, pemikiran dan hubungan antara sat u dengan lainnya. b. Inference Engine, yaitu kemampuan menarik kesimpulan berdasarkan pengalaman.
Gambar 2.1 penerapan konsep kecerdasan buatan di komputer.
2.2.2 Kecerdasan Buatan dan Kecerdasan Alami Jika dibandingkan dengan kecerdasan alami (kecerdasan yang dimiliki oleh manusia), kecerdasan buatan memiliki beberapa keuntungan secara komersial (Kusumadewi 2003,pp3-4) antara lain : a. Kecerdasan buatan lebih bersifat permanen. Kecerdasan alami akan cepat mengalami perubahan. Hal ini dimungkinkan karena sifat manusia yang pelupa. Kecerdasan buatan tidak akan berubah sepanjang sistem komputer dan program tidak mengubahnya.
15
b. Kecerdasan buatan lebih mudah diduplikasi dan disebarkan. mentransfer pengetahuan manusia dari satu orang ke orang lain membutuhkan proses yang sangat lama dan juga suatu keahlian itu tidak akan pernah dapat dipublikasi dengan lengkap. Oleh karena itu, jika pengetahuan terletak pada suatu sistem komputer, pengetahuan tersebut dapat disalin dari komputer tersebut dan dapat dipindahkan dengan mudah ke komputer yang lain. c. Kecerdasan buatan lebih m urah dibanding dengan kecerdasan alami. Menyediakan layanan komputer akan lebih mudah dan lebih murah dibandingkan dengan harus mendatangkan seseorang unt uk mengerjakan sejumlah pekerjaan dalam jangka wakt u yang sangat lama. d. Kecerdasan buatan bersifat konsisten. Hal ini disebabkan karena kecerdasan buatan adalah bagian dari teknologi komputer. Sedangkan kecerdasan alami akan senantiasa berubah-ubah. e. Kecerdasan buatan dapat didokumentasi. Keputusan yang dibuat oleh komputer dapat didokumentasi dengan mudah dengan cara melacak setiap aktivitas dari sistem tersebut. Kecerdasan alami sangat sulit untuk direproduksi. f. Kecerdasan buatan dapat mengerjakan pekerjaan lebih baik dibanding dengan kecerdasan alami. Sedangkan keuntungan dari kecerdasan alami adalah : a. Kreatif. Kemampuan unt uk menambah ataupun memenuhi pengetahuan itu sangat melekat pada jiwa manusia. Pada kecerdasan buatan, untuk menambah pengetahuan harus dilakukan melalui sistem yang dibangun.
16
b. Kecerdasan alami memungkinkan orang untuk menggunakan pengalaman secara langsung. Sedangkan pada kecerdasan buatan harus bekerja dengan input-input sim bolik. c. Pemikiran manusia dapat digunakan secara luas, sedangkan kecerdasan buatan sangat terbatas.
2.2.3 Komputasi Kecerdasan Buatan dan Komputasi Kon vensional Seperti telah dikatakan sebelumnya, bahwa pada awal diciptakannya, komputer hanya diperuntukkan sebagai alat hitung (komputasi konvensional). Untuk it u ada beberapa perbedaan antara komputasi yang dilakukan pada kecerdasan buatan dengan komputasi konvensional tersebut. Tabel 2.1 Perbandingan kecerdasan buatan dan pemrograman konvensional Dimensi
Kecerdasan Buatan
Pemrograman Kon vensional
Pemrosesan
Mengandung
konsep- Algoritmik
konsep simbolik Sifat Input
Bisa tidak lengkap
Pencarian
Kebanyakan
Keterangan
Harus lengkap
bersifat Biasanya
didasarkan
heuristik
pada algoritma
Disediakan
Biasanya
tidak
disediakan Fokus
Pengetahuan
Struktur
Kontrol dipisahkan dari Kontrol pengetahuan
Data dan informasi dengan informasi atau data
Sifat output
Kuantitatif
Pemeliharaan dan Relatif mudah
Kualitatif Sulit
update Kemampuan
Ya
terintegrasi
tidak
17
menalar
2.2.4 Lingkup kecerdasan buatan pada aplikasi komersial Makin
pesatnya
perkembangan
dan
perkembangan
teknologi
menyebabkan
adanya
perluasan lingkup yang membutuhkan kehadiran
kecerdasan buatan. Karakteristik ‘cerdas’ sudah mulai dibutuhkan di berbagai disiplin ilmu dan teknologi. Kecerdasan buatan tidak hanya dominan dibidang ilmu komputer atau informatika, namun juga sudah merambah di berbagai disiplin ilmu yang lain. Irisan antara psikologi dan kecerdasan buatan melahirkan
sebuah
area yang dikenal dengan nama cognition and
psycolinguistics. Irisan antara teknik elektro dengan kecerdasan buatan melahirkan berbagai ilmu seperti pengolahan citra, teori kendali, pengenalan pola dan robotika. Dewasa ini, kecerdasan buatan juga memberikan kontribusi yang cukup besar dibidang manajemen. Adanya sistem pendukung keputusan, dan sistem informasi manajemen juga tidak terlepas dari kecerdasan buatan. Adanya irisan penggunaan kecerdasan buatan di berbagai disiplin ilm u tersebut menyebabkan cukup rumitnya untuk mengklasifikasikan kecerdasan buatan menurut disiplin ilmu yang menggunakannya. Unt uk memudahkan hal tersebut, maka pengklasifikasian lingkup kecerdasan buatan didasarkan pada output yang diberikan yaitu pada aplikasi komersial meskipun sebenarnya kecerdasan buatan itu sendiri bukan merupakan medan komersial. Lingkup utama dalam kecerdasan buatan adalah : 1. Sistem Pakar (Expert System ). Disini komputer digunakan sebagai sarana untuk menyimpan pengetahuan para pakar. Dengan demikian komputer akan memiliki keahlian untuk menyelesaikan permasalahan dengan meniru keahlian yang dimiliki oleh pakar.
18
2. Pengolahan Bahasa Alami (Natural Language Processing). Dengan pengolahan bahasa alami ini diharapkan user dapat berkomunikasi dengan komputer dengan menggunakan bahasa sehari-hari. 3. Pengenalan Ucapan (Speech Recognition). Melalui pengenalan ucapan diharpkan manusia dapat berkomunikasi dengan komputer dengan menggunakan sarana suara. 4. Robotika dan Sistem Sensor (Robotics and Sensory System ). 5. Com puter Vision. Mencoba untuk dapat menginterpretasikan gambar atau objek-objek tampak melalui komputer. 6. Intelligent Com puter-aided Instruction. Komputer dapat digunakan sebagai tutor yang dapat melatih dan mengajar. 7. Gam e Playing. Beberapa karakteristik yang ada pada sistem yang menggunakan Artificial Intelligence adalah pemrogramannya yang cenderung bersifat sim bolik ketimbang algoritmik, bisa mengakomodasi input yang tidak lengkap, bisa melakukan
inferensi
dan
adanya pemisahan
antara kontrol
dengan
pengetahuan. Namun, seiring dengan perkembangan teknologi, muncul beberapa teknologi yang juga bertujuan unt uk membuat agar komputer menjadi cerdas sehingga dapat menirukan kerja manusia sehari-hari. Teknologi ini juga mampu mengakomodasi adanya ketidakpastian dan ketidaktepatan data input. Dengan didasari pada teori himpunan, maka pada tahun 1965 muncul Logika Fuzzy. Kem udian pada tahun 1975 John Holland mengatakan bahwa setiap masalah berbentuk adaptasi (alami maupun buatan)
19
secara umum dapat diform ulasikan dalam terminologi genetika. Algoritma genetika ini merupakan sim ulasi proses evolusi Darwin dan operasi genetika atas kromosom.
2.2.5 Soft Computing Soft com puting (Kusumadewi 2003,pp7-9) adalah koleksi dari beberapa metodologi yang bertujuan unt uk mengeksploitasi adanya toleransi terhadap ketidaktepatan, ketidakpastian dan kebenaran parsial untuk dapat diselesaikan dengan mudah, robustness dan biaya penyelesaiannya m urah. Soft com puting merupakan inovasi baru dalam membangun sistem cerdas. Sistem cerdas merupakan sistem yang memiliki keahlian seperti manusia pada domain tertentu, mampu beradaptasi dan belajar agar dapat bekerja lebih baik jika terjadi perubahan lingkungan. Unsur-unsur pokok dalam Soft Com puting, adalah: 1. Fuzzy System (mengakomodasi ketidaktepatan). 2. Neural Network (menggunakan pembelajaran). 3. Probabilistic Reasoning (mengakomodasi ketidakpastian). 4. Evolutionary Com puting (optimasi). Keempat unsur tersebut bukan merupakan pesaing antara satu dengan lainnya, namun diantaranya bisa saling melengkapi. Bahkan, pada kenyataan biasanya unsur-unsur pokok tersebut akan digunakan secara sinergis ketimbang dikerjakan secara sendiri-sendiri sehingga soft com puting ini merupakan hubungan antara logika fuzzy, neuro-com puting, probabilistic reasoning dan algoritma genetik.
20
Tabel 2.2 Soft Com puting. Pembela Ekstraksi
O perasi
Representasi
O ptim
jaran
real-time
Pengetahuan
asi
Ya
Simbolik/num
Tidak
Pengetah uan
Fuzzy/Pro
Tidak
Ya
erik
babilistic reasoning Neural
Ya
Tidak
Ya
Numerik
Tidak
Ya
Tidak
Tidak
Numerik
Ya
Tidak
Ya
Tidak
Simbolik/num
Tidak
Network Evolusion er System AI convensio
erik
nal system Karakteristik Soft Com puting: a. Soft Com puting memerlukan keahlian manusia, apabila direpresentasikan dalam bentuk at uran (IF-THEN). b. Model komputasinya diilhami oleh proses biologis. c. Soft Com puting merupakan teknik optimasu baru. d. Soft Com puting menggunakan komputasi numeris. e. Soft Com puting memiliki toleransi kegagalan (meskipun kualitasnya berangsur-angsur memburuk).
2.2.6 Pendekatan Masalah Sistem yang menggunakan kecerdasan buatan akan mencoba unt uk memberikan output berupa solusi dari suat u masalah berdasarkan kumpulan pengetahuan yang ada. Pada sistem harus dilengkapi dengan sekumpulan pengetahuan yang ada pada basis pengetahuan. Sistem harus memiliki
21
inference engine agar mampu mengambil kesimpulan berdasarkan fakta atau pengetahuan. Output yang diberikan berupa solusi masalah sebagai hasi dari inferensi. Secara um um, untuk membangun suatu sistem yang mampu menyelesaikan masalah, perlu dipertimbangkan empat hal, yait u : 1. Mendefinisikan masalah dengan tepat, mencakup spesifikasi yang tepat mengenai keadaan awal dan solusi yang diharapkan. 2. Menganalisis masalah dan mencari beberapa teknik penyelesaian masalah yang sesuai. 3. Merepresentasikan pengetahuan yang perlu untuk menyelesaikan masalah tersebut. 4. Memilih teknik penyelesaian masalah yang terbaik.
2.2.7 Metode Pencarian dan Pelacakan Hal terpenting dalam
menentukan
keberhasilan
sistem
berdasar
kecerdasan adalah kesuksesan dalam pencarian dan pencocokan. Pada dasarnya ada dua teknik pencarian dan pelacakan yang digunakan, yaitu pencarian buta (blind search) dan pencarian terbimbing (heuristic search). 1. Pencarian Buta (Blind Search) A. Pencariam melebar pertama (Breadth-First Search) Pada metode Breadth-First Search, semua node pada level n akan dikunjungi terlebih dahulu sebelum mengunjungi node-node pada level n+1. Pencarian dimulai dari node akar terus ke level ke-1 dari kiri ke kanan, kemudian berpindah ke level berikutnya demikian pula dari kiri ke kanan hingga ditemukan solusinya.
22
Gambar 2.2 Breadth-First Search Keuntungan 1. Tidak akan ditemui jalan buntu. 2. Jika
ada
sat u
solusi,
maka
Breadth-First
Search akan
menemukannya dan jika ada lebih dari sat u solusi, maka solusi minimum akan ditemukan. Kelemahan 1. Membut uhkan memori yang cukup banyak, karena menyimpan semua node dalam sat u pohon. 2. Membut uhkan waktu yang cukup lama, karena akan menguji nlevel untuk mendapatkan solusi pada level ke-(n+1).
2.2.8 Data mining Data m ining (Jiang 1997,p3)
adalah aplikasi dari algoritma unt uk
mengekstraksi data yang valid, bermanfaat atau informasi yang sebelumnya tidak diketahui dan akhirnya dipahami dari sebuah database yang besar. Informasi yang diekstrak dapat digunakan unt uk membent uk model prediksi atau klasifikasi, mengidentifikasi hubungan antara catatan database, atau memberikan ringkasan informasi database.
23
2.2.9 Kerja Data Mining Terdapat dua bent uk hasil di dalam data m ining yaitu prediksi dan deskripsi. Prediksi digunakan unt uk mengetahui field dalam database untuk memprediksi nilai yang tidak diketahui oleh field yang lainnya. Deskripsi menentukan pola pemahanan manusia yang menjelaskan data. Berikut proses kerja data mining yang digunakan unt uk mendapatkan hasil: 1. Classification mengelompokan data item kedalam 1 dari beberapa class yang digunakan. 2. Regression adalah mempelajari fungsi berupa pengabungan data item menjadi nilai real pada variable prediksi. 3. Clustering mengidentifikasi sebuah himpunan yang bernilai pada kategori untuk mengam barkan data. 4. Summarization metode penyelesaian untuk menemukan deskripsi yang tersusun untuk subset data.
2.2.10 Singular Value Decomposition Singular Value Decom position (Jiang 1997,p3)
digunakan unt uk
perkiraan nilai term -docum ent dengan hanya menggunakan nilai-nilai kterbesar t unggal dan vektor tunggal yang sesuai. Ruang vektor k-dimensi konseptual dibangun dari vektor tunggal, sehingga setiap term atau docum ent dapat direpresentasikan sebagai titik dalam ruang. Bent uk persamaan Singular Value Decom position T
A = US V
(2.1)
Keterangan: U adalah matriks yang kolom-kolomnya berupa vektor eigen dari matriks T AA . Ini disebut The left eigenvectors.
S adalah matriks diagonal dengan element berupa nilai-nilai singular dari A, dan nilai elemen-elemen non-diagonal ialah 0. V adalah bentuk matriks yang kolom-kolomnya berupa vektor eigen dari T T matriks A A. Ini disebut The right eigenvectors. V adalah transpose dari V.
24
2.2.11 Latent Semantic Indexing Latent Sem antic Indexing (Jiang 1997,p11-12) adalah metode pencarian informasi yang efisien untuk dokumen tekstual dengan menentukan Singular Value Decom position terbesar melalui matriks dari term s-by-docum ent dan Latent Sem antic Indexing dapat membangun sebuah ruang model perkiraan vektor yang mewakili hubungan asosiatif penting antara persyaratan dan dokumen yang tidak jelas dalam dokumen individu. Proses LSI dilakukan dengan persamaan berikut T T T T A = (USV ) = VSU
(2.2)
T -1 T -1 A US = VSU US
(2.3)
T -1 V = A US
(2.4)
d = dTUS-1
(2.5)
T -1 q = q US
(2.6)
T -1 d = d UkSk
(2.7)
T -1 q = q UkSk
(2.8)
sim(q, d) = sim(qTUkSk-1, dT UkSk-1) Keterangan: A adalah hasil dari proses Singular Value Decom position. T A adalah bent uk A yang transpose.
d adalah dokumen dari bentuk matriks kategori. q adalah query/kata untuk mencari informasi yang dalam. k adalah reduksi dimensi. sim adalah pencarian nilai kemiripan.
(2.9)
25
2.2.12 Keuntungan dan Kerugian menggunakan Latent Semantic Indexing Keuntungan dengan memakai Latent Sem antic Indexing menurut Rosario (2000,pp6-9): 1. Dimensi sebenarnya Angapan dalam Latent Sem antic Indexing adalah bentuk dimensi baru dengan representasi yang baik dari dokumen dan query. Metafora yang mendasari “latent” ialah dimensi-dimensi baru berupa representasi yang benar. Representasi yang benar diproses secara generasi unt uk mengungkap dimensi tertentu dari satu bentuk kata dalam beberapa dokumen dan bentuk kata yang lain dari dokumen yang lain juga. Latent Sem antic Indexing menganalisis struktur sem antic terhadap kolom kosong dan dimensi aslinya.
2. Sinonim Sinonim menjelaskan untuk pernyataan terhadap penjelasan konsep yang sama untuk bisa dijelaskan kegunaan dari term-term yang berbeda. Penggunaan strategi pengambilan tradisional memiliki masalah unt uk menemukan dokumen dari topic yang sama dengan mengunakan kamus kata berbeda. Dalam Latent Sem antic Indexing, konsep dalam pertanyaan sama-sama baik unt uk setiap dokumen yang diwakili oleh kombinasi kata yang sama besarnya untuk dikom binasikan dengan variabel index.
3. Polysemy Polysemy menjelaskan kata yang memiliki arti yang sama dimana memiliki bahasa yang umum. Nomor yang besar terhadap kata polysem ous dalam query bisa mengurangi ketelitian terhadap pencarian yang singnifikan. Dengan mengurangi representasi dalam Latent Sem antic Indexing, sat u harapan untuk membuang berupa “noise” dari
26
data, dimana bisa menjelaskan kelangkaan dan keterbatasan pengunaan yang penting terhadap beberapa term-term.
4. Ketergantungan term Model tradisional ruang vektor menjelaskan kebebasan term dan penentuan term sebagai vektor-vektor berbasis orthogonal dari ruang vektor. Karena ada hubungan kuat antara bahasa dalam term, asumsi ini tidak dapat digunakan. Selama menjelaskan kebebasan term dengan pendekatan first-order yang benar, it u harusnya bisa digunakan unt uk peningkatan kinerja dengan menggunakan asosiasi istilah dalam proses pengambilan. Penam bahan frasa um um sebagai pencarian item-item adalah aplikasi yang sederhana dalam pendekatan ini. Dalam hal yang lain, faktor Latent Sem antic Indexing adalah penjelasan dari orthogonal, dan term-term diletakan dalam ruang kecil yang mencerminkan korelasi dalam penggunaan disetiap dokumen. Hal ini menyusahkan unt uk mengambil keunt ungan dari asosiasi term tanpa meningkatkan tingkat komputasi secara dramatis. Solusi Latent Sem antic Indexing adalah kesulitan unt uk memproses banyak koleksi, hanya dibutuhkan unt uk memproses sat u dari koleksi yang masuk dan waktu pengambilan tidak terpengaruh.
Kerugian menggunakan Latent Sem antic Indexing: 1. Kapasitas Seseorang dapat langsung berargumentasi bahwa pemrosesan Singular Value Decom position merupakan proses yang kompleks. Banyak dokumen lebih dari 150 term-term yang unik. Jika ruang representasi vektor akan digunakan lebih unt uk pada ruang storage daripada representasi bagian Singular Value Decom position jika kita menurunkan menjadi 150 dimensi. Kenyataan, kebalikannya ialah sebenarnya benar.
27
Seperti contoh, dokumen dari matriks term untuk koleksi Cranfield yang digunakan dalam Hull’s experim ents yang memiliki 90,441 non-zero entries (setelah pemrosesan dan berhenti penghilangan kata). Pemrosesan hanya 100 yang bisa dari 1399 vektor Latent Sem antic Indexing yang dibut uhkan 139,900 nilai unt uk satu dokumen. Vektor term dibutuhkan
dalam simpanan kira-kira 400,000
tambahan nilai. Selain itu, nilai Latent Sem antic Indexing adalah bilangan real selama frekuensi asli term berupa integers, penam bahan ke biaya penyimpanan. Mengunakan vektor Latent Sem antic Indexing, kita tidak perlu mengambil keunt ungan dari fakta bahwa setiap kejadian term dalam angka yang limit di dokumen, yang mana unt uk tersebar kesetiap term oleh dokumen matriks. Dengan kemajuan terakhir dalam penyimpanan media elektronik, kebutuhan penyimpanan dari Latent Sem antic Indexing bukan lagi masalah yang sulit, tetapi hilangnya kesebaran lainnya, dan lebih keterlibatan serius.
2. Efisiensi Satu dari banyaknya speed-ups yang penting dalam ruang pencarian vektor datang dari pengunaan kebalikan index. Sebagai konsekuensinya, hanya dokumen yang memiliki beberapa term-term yang umum dengan query yang harus diperiksa selama pencarian. Dengan Latent Sem antic Indexing, query harus dibandingkan ke setiap dokumen di dalam koleksi. Dimana, terkadang, beberapa factor yang bisa mengurangi atau menghapus dari halangan ini. Jika query punya lebih term-term maka representasinya dalam ruang vektor Latent Sem antic Indexing, maka nilai produk dalam kesamaan skor akan mengambil lebih banyak wakt u unt uk menghitung dalam ruang term. Misalnya, jika pengem balian relevansi dilakukan menggunakan teks yang lengkap dari dokumen yang relevan, nilai dari term dalam query
28
cenderung t umbuh menjadi berkali-kali didalam nilai dari vektor Latent Sem antic Indexing, mengarah ke peningkatan yang sesuai pada wakt u pencarian. Selain it u, dengan menggunakan strukt ur data seperti pohon kd dalam hubungannya dengan Latent Sem antic Indexing akan sangat cepat dalam pencarian unt uk nearest neighbors, disediakan hanya memesan sebagian dari dokumen yang diperlukan. Sebagian besar biaya tambahan datang dalam tahap pra-pemrosesan ketika Singular Value Decom position dan pohon k-d dihitung, dan wakt u pencarian yang sebenarnya tidak signifikan terdegradasi. Teknik ekspansi permintaan lainnya menderita bahkan lebih berat dari kesulitan-kesulitan yang dijelaskan di atas, dan Latent Sem antic Indexing melakukan relatif baik untuk dokumen lama karena sejumlah kecil vektor konteks yang digunakan unt uk menggambarkan setiap dokumen. Namun, implementasi dalam Latent Sem antic Indexing memerlukan investasi tambahan
berupa penyimpanan dan wakt u
komputasi.
3. LSI dan pengolahan data normal Objek yang lain untuk Singular Value Decom position yaitu semalam dengan sem ua kuadrat terkecil lainnya, Ini didesain untuk pengolahan data, tetapi pengolahan tersebut berupa ketidaktepatan dalam penghitungan data, dan penghitungan data terdiri dari term-document matriks. Akhirnya, unt uk memutuskan keadaan keuntungan bentuk yang lebih besar daripada kerugian, kita perlu melihat dalam pengambilan kemampuan.
Selama mempunyai perolehan
beberapa hasil yang
menjanjikan, mereka tidak perlu menujukkan keyakinan relefan dengan Latent Sem antic Indexing merupakan unggulan untuk model ruang vektor dasar.
29
2.2.13 Analisis Regresi Analisis regresi adalah salah satu metode untuk menent ukan hubungan sebab-akibat antara satu variabel dengan
variabel-variabel yang lain.
Variabel "penyebab" disebut dengan bermacam-macam istilah: variabel penjelas, variabel eksplanatorik, variabel independen, atau secara bebas, variabel X (karena seringkali digam barkan dalam grafik sebagai absis, atau sumbu X).
Variabel terkena akibat
dikenal sebagai variabel yang
dipengaruhi, variabel dependen, variabel terikat, atau variabel Y. Kedua variabel ini dapat merupakan variabel acak (random), namun variabel yang dipengaruhi harus selalu variabel acak. Analisis regresi adalah salah satu analisis yang paling populer dan luas pemakaiannya. Hampir sem ua bidang ilmu yang memerlukan analisis sebabakibat boleh dipastikan mengenal analisis ini.
2.2.14 Perbedaan Error dengan Residual Residual adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan sebenarnya apabila data yang digunakan adalah data sampel. Error adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan yang sebenarnya apabila data yang digunakan adalah data populasi. Predicted value adalah nilai duga yang dihasilkan dari model regresi yang diperoleh. Persamaan dari keduanya merupakan selisih antara nilai duga (predicted
value)
dengan
pengamatan
sebenarnya.
Sementara
perbedaan keduanya ialah residual dari data sampel, error dari data populasi.
2.2.15 Asumsi Kenormalan pada Error Model Regresi Linier Model regresi mengasumsikan bahwa error menyebar mengikuti sebaran (distribusi) normal, dengan rata-rata nol dan simpangan baku tertentu.
30
Pertanyaannya, bagaimanakah cara menguji asumsi kenormalan dari error model regresi. Setidaknya ada dua cara yang dapat dilakukan, yaitu dengan menggunakan statistik uji dan dengan grafis. Sekarang dapat diskusikan mengenai pengecekan asumsi kenormalan error model regesi dengan metode grafis. Dalam praktek, error dari model regresi tidak dapat (atau sangat sulit) diketahui. Sebagai gantinya, maka dapat menguji asumsi kenormalan error model regresi dengan menggunakan nilai residual. Terdapat beberapa alat yang bisa digunakan untuk memeriksa apakah residual menyebar normal atau tidak, misalnya dengan histogram, QQ-plot, dll. Disini hanya akan dibahas pemeriksaan kenormalan residual dengan histogram dan QQ-plot. Sedangkan data yang digunakan adalah data simulasi yang dibangkitkan (generated) dengan menggunakan soft ware R. Dalam kasus ini dibangkitkan data yang menyebar Normal dengan ratarata nol dan simpangan baku 1. Pem baca boleh membangkitkan sembarang data yang menyebar normal, asalkan memiliki rata-rata nol. 1. Menggunakan Histogram Apabila residual mengikuti sebaran normal, maka bentuk histogram akan simetris/mendekati simetris (seimbang), dimana sebagian besar data akan terpusat ditengah-tengah histogram. Hal ini ditunjukkan dengan nilai-nilai frekuensi yang besar berada di tengah-tengah histogram. Perhatikan bahwa histogram terpusat di sekitar titik 0, yang menunjukkan bahwa residual memiliki rata-rata nol.
2. Menggunakan QQ-Plot (Quantile-Quantile Plot) QQ plot akan membent uk plot antara nilai-nilai quantil teoritis (sumbu x) melawan nilai-nilai quantil yang didapat dari sampel (sum bu
31
y). Apabila plot dari keduanya berbent uk linier (dapat didekati oleh garis lurus), maka hal ini merupakan indikasi bahwa residual menyebar normal. Pada gambar di bawah ini, plot dari keduanya berbentuk linier sehingga dapat didekati oleh garis lurus warna biru. Dengan demikian dapat dikatakan bahwa residual menyebar normal. Seringkali ditemui bahwa ujung-ujung plot pada QQ-plot agak menyimpang dari garis lurus. Pem baca janganlah merasa bahwa hal tersebut adalah hal serius. Bila pola-pola titik yang terletak selain di ujung-ujung plot masih berbentuk linier, meskipun ujung-ujung plot agak menyimpang dari garis lurus, kita dapat mengatakan bahwa sebaran data (residual) adalah menyebar normal.
2.2.16 Analisis Regresi dengan Variabel Dummy Regresi Linier tidak hanya terbatas digunakan untuk memodelkan hubungan dimana variabel bebas (X) bertipe data interval atau rasio saja. Regresi linier juga memungkinkan bila digunakan untuk melakukan analisis data bila variabel bebasnya (X) bertipe data nominal. Teknik semacam ini dikenal dengan nama regresi variabel dummy.