BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI
2.1. Tinjauan Pustaka Pussta tak ka Padaa penelitian sebelumnya yang dilakukan sebelumn m ya y yan angg di dila aku k kan oleh Zhang, Zhaang ng, L. (Zhang, L., Collaborative Filtering 2014), ), ia ia memanfaatkan memanfaaatkan an algoritma User-Based d C olla ol laborative Filte tering (UCF) untuk penyajian un ntuk mencari menc ncar arii rekomendasi r komeend re ndasi yang fokus pada peny nyaj ajian item ittem baru ba atauu disebut novelty. menambahkan faktor novelt ltyy. Ia mengembangkan mengembangkan algoritma UCF dengan m enamb mbah ahka kan fa fakt k or dissimilarity faktor tingkat di iss ssim i il ilaritty (item yang berbeda dari profil pengguna aktif) ddan an fak akto torr tingka kat kepopuleran ke kepo popule leran item dengan tujuan penambahan faktor-faktor tersebut terseb te but ddapat apat membantu (novelty). memba antu pengguna aktif mendapatkan item yang bersifat “baru” (no ovelty). Kata Kaataa “baru”” atau novelty dalam penelitian ini merujuk pada item yang di ratingg oleh h pengguna namun sekali profil peng ggu guna aktif, namu munn item item tersebut ters te rsebut sama se seka kali li ttidak idak id ak memiliki kesamaan kesaamaan pro roffill Manfaat dengan daftar rating pengguna. Ma Manf n aa aatt yang didapat dari penelitian ini adalah ada dala lahh supaya su supa paya ya rekomendasi yang ditawarkan tidak bersifat kaku dan ttidak idak id ak ssempit empit em lingkupnya. li ling ngku k pnya. Dalam Dallam perkembangannya,, para para peneliti peene n liti mulai mengembangkan mengemb bangkan algoritmadengan algoritma rekomendasi yang sudah suddah ada den ngan tujuan mendapatkan akurasi dan dari presisi rekomendasi yang lebih baik da ari sebelumnya. Selain menambahkan variabel-variabel baru, beberapa peneliti pen nel e itti memanfaatkan metode clustering g seperti K-Means untuk membagi data rating menjadi beberapa cluster. Inilah yang dilakukan oleh Zhang (Zhang, L., 2014) dalam penelitiannya dengan fokus pengembangan algoritma User-Based Clustering Collaborative Filtering. Hasil
6
dari penelitian ini menunjukkan bahwa dengan memanfaatkan clustering dalam algoritma rekomendasi dapat mengurangi masalah ketersebaran data dan menambah kemampuan sistem m rrekomendasi ekkomendasii dalam dala da l m mencari neighborr yang baik. Tahap se selanjutnya dalam ela lanjutnya dala am perkembangan algoritma ma sistem rekomendasi menggabungkan lebih algoritma adalah men enggabungk g an ddua ua aatau tauu le ta lebi bih al lgo gorritm tmaa rekomendasii dengan tujuan supaya menutupi supa aya dapat ssaling aling m enutupi kelemahan kel elem emah ahan an algoritmaa satu ssama ama lain. Penelitian Shinde menggabungkan yyang ang dilakukan dillak akuk ukan an olehh S hinde (Shinde, S. K., 2011) dengan denga gan meng ngga gabu b ngkann UserBased memanfaatkan K-Medoids Base ed dan da Item-Based Ittem-Based Collaborative Filteringg serta meman nfa f atka kann K -Medooid i s clustering cllus uste teringg dalam pembagian neighbor-nya, menunjukkan ba bbahwa hw wa dengan de n memanfaatkan dapat menambah me memanf faatkan clustering g dalam proses pencarian neighborr dapa at m enam en ambah kemampuan kemam mpuan rekomendasi sistem. Selain berfokus pada algoritma rekomendasi ataupun p da penggabungan algo pa g ritma rekomendas asii ataupu punn dengan clustering, De Campos (De Campos Camp mpoos ett al., al 2010) melakukan penelitian de eng ngan n melibatkan meli me liba b tkan “model” jaringan (network) k pada sistem rekomendasi yang ng bersifat ber ersi siffat Hybrid. untuk mengatur algoritma Hybr Hy brid id. Tujuan Tuju Tu juan an pemodelan pem emod odel elan an iini ni adalah ada dalaah un untu tukk me meng ngat atur ur pperan eran er an ddari arii al ar algo gori ritma rekomendasi diterapkan reko kome m nd ndas asii gabungan gabu bung ngan yang dite tera r pkan dalam dal alaam sistem. Ia Ia memanfaatkan m ma me manf nfaa aatk tkan an Bayesian Bayesian rekomendasi Network Model supaya peran algoritma alg goritma rek komendasi gabungannya (Hybrid) d dapat menghasilkan rekomendasi yang akurat. a urat. ak Beberapa peneliti lain yang seperti s pe se perti Formoso (Formoso et al., 2013) lebih memfokuskan penelitiannya pada Pada f k k li i d efisiensi fi i i data. d d penelitiannya, li i iia menekankan bahwa dalam penerapannya di dunia nyata (online), faktor ukuran data dan kecepatan penyajian rekomendasi sangatlah penting. Dengan
cara
7
mengkompresi ukuran matrix user-item rating hingga 75% dari ukuran aslinya, Formoso menunjukkan bahwa kecepatan rekomendasi naik dua kali lipat rekomendasi masih dibandingkan dengan rekome mend ndasi yang m a ih menggunakan ukuran matrix as aslinya. Beberapa penelitian diatas memiliki fokusnya masing-masing, Beeberapa pen enellit itia ian diat tas m emillik em ikii fo foku usn snya ya masing-ma asi sing, mulai dari penggabungan peng ggabungan n
algoritma, algorritma,
clustering, clus cl uste teri ring ng,
hingga hinggga hi
pemodelan pemoddel e an
jaringan jarin nga g n
dan
mempercepat penelitian m emperrce cepa patt kkecepatan eceepa patan rekomendasi. Dalam penelitia iann kalii iini, ni,, pe ni ppeneliti nelitii ingin memanfaatkan lebihh fokus fokkus pada fo padda peningkatan kualitas pencarian neighbor dengan pa deng ngan m emanfaatkkan em Pearson-Correlation Pe Pear arso s n-C Correlation untuk menghitung seberapa dekat pengguna penggunna aaktif ktif if dengan dengann pengguna pe peng n gunna lainnya. Semakin besar nilai yang dihasilkan dari pengukuran pen ngu guku k rann kedekatan kedeka atan tersebut, maka semakin besar kemungkinannya pengguna pengguuna tersebut terseebu but ad h sumber rekomendasi yang baik bagi pengguna aktif. adalah Baik atau tidaknya rekomendasi rekom men endaasi yang diberikan, nantinya akan terlihat ter erli liha hat pada bagian evaluasi rekomendasi. Pada bagian evaluasi, sistem pada sist stem em akan aka k n mencocokan banyak sudah me menc n ocok okan an sseberapa eber eb erap apaa ba bany nyak k rrekomendasi ekom ek omen enda dasi si yyang ang su suda dahh di rating rati ra ting ngg oleh olehh pengguna. peng pe nggguna. Daftar tersebutlah rekomendasi yang Daft ftar ar ter rse sebbutlah h yyang ang disebut de dengan rek komendasi yan ng ak aakurat. urat at. Penelitian ini mencoba m mencari encari tau u seberapa akurat rekomendasi sistem Collaborative yang menerapkan User-Based Collabo orative Filtering dan memanfaatkan Pearson-Correlation sebagai dasar ppencarian encarian neighbor-nya. Peneliti memiliki asumsi bahwa pemilihan neighbor sangatlah berperan penting dalam keakuratan rekomendasi. Untuk itu peneliti hanya akan mengambil semua neighbor yang memiliki koefisien relasi lebih dari 0,5 (untuk nilai 1 yang berarti neighbor
8
memiliki relasi kuat dengan pengguna aktif)
dengan pengguna aktif. Relasi
dibawah batas tersebut dianggap relasi yang lemah dan tidak layak menjadi sumber rekomendasi bagi pengguna peng nggguna aktif.
9
Tabel 2.1 Tabel Ta Tabeel Rangkuman Tinjauan Pustaka Pus ustaka No 1
2
3
4
5
Nama Peneliti, eneliti, Tahun
Judul Judu dul Penelitian Peneeliti tian n
Pokok Bahasan Baha
Zhang, L., Peng, eng, Li F. F., ., Phelan,, No Novel Recommendation Reco comm mmendation off Pene Pen litian inii membahas Penelitian membahas tentang te pengembangan pen dari algoritma C.A., 2014 User-Based rekomendasi User-Ba U Based Collaborative rekome end ndasi User-Based User Us er--Ba B sed Collabo Collaborative Filtering dengan Filtering pada item yang akan Filt ltering melibatkan faktor fak a tor “pembaruan” “pem “p emba baruan n” (novelty) (nov direkomendasikan. direkomendasik kan a . Zhang, L., Q Qin, in, Tao, Taao, o Teng, Tengg, An Improved Collaborative Pada penelitian ini,, algoritma algoritm ma Collaborative Filtering PiQiang, 20144 dengan mengelompokkan para pengguna sistem Filtering Algorithm Based on dikembangkan denga gan me eng ngelompo po melalui yang didasari dari User Interest terlebih dahulu me melalu ui cclustering lusterr pengguna. Metode ketertarikan tiap peng ggunaa. Me M todd pencarian neighbor juga to mengatasi dikembangkan untuk mengata asii ketersebaran data dalam sistem. Shinde, S. K.,., Kulkarni, Kulkaarn rni, U. U. V., Hybrid Personalized Penelitian ini menggabungkan menggaabung ngkkan Us U User-Based dan Item-Based Reco omm mmeendder Sy System Using ng Co Coll llab abor orat ative Filterin ng dan me m 2011 Recommender Collaborative Filtering mengelompokkan pengguna Fast K-medoids K-meddoid idss Cl C Clustering usteeri ring ng ddengan engan K-M Medoids Clusteringg Algorithm Alg lgo dengan tujuan untuk K-Medoids Algorithm mencari rekomendasi yang ng bberkualitas erk dan akurat bagi pengguna aktif. Formoso, Vreixo, reixo, o, Fernandez, Fer erna nanddezz, Us Using Usin ingg Rating Rati Ra ting ng Matrix Matriix Pe Penelitian Pene neli liti tian an ini ini fokus fok okus us pada pada da cara cara uuntuk ntuk mengkompresi tabel rating D., Cacheda, F., Ca Carneiro, V., Compression menjadi tujuan untuk mempercepat Carn rnei e ro, V ., Co Comp mpre ress ssio ion Techniques Tech chni niqu ques es tto o menj njad adii sebuah sebu buah ah matrix dengan deng de ngan tu Spee Sp eedd U p C ollabo borrativee pencar aria ian re reko kome mend ndas asii da dann menghem menghemat ukuran data. 2013 Speed Up Collaborative pencarian rekomendasi Recommendations Re Beel, J., Langer, ger, S., Genzmehr, A Comparative A Analysis nalysis of of Pada penelitian ini membuktikan bahwa b ada perbedaan hasil
10
6
M., Gipp, B.. and Nürnberger, Of Offline Offl fline andd Online A. 2013 Evaluations and Di D Discussion scus sc ussiion of of Research Resear arch h Pape Pa Paper perr Recommender R Re comm mmen ende d r System Evaluation Ev De Campos,L. L. M., FernandezFernanddez ez-- Co Combining C mb bin ining Content-Based Luna,J. M., Huete, Huete,F. Ruedae,F F. J., R ueda ue da- An Andd Collaborative Morales,M. A., 22010 010 Recommendations: A Hybrid Approach Based On Bayesian Networks
evaluasi re rekomendasi eko komendasi yang didapa didapat pada lingkungan sistem yang online deng ya dengan ngan lingkungan si sistem yang offline. Fokus pada pa da ppenelitian enelitian ini ad en adalah memband membandingkan hasil evaluasi pada sistem sist tem online online dan d n offline. da offlin ne. e Penelitiian ini m Penelitian menggabungkan engg en ggab a ungk kan Cont Content-Based Filtering dengan menggunakan Collaborativee Filtering Filt lterrin ingg dan d n memodelkannya da m m me Bayesian Networks. Tujuan penggabungan kedua pendekatan Bay yes e ian Ne Netw tworks. Tu tersebut untuk algoritma terseb but adalah ada dala lah unt tuk meningkatkan kualitas rekomendasi sistem.
11
2.2. Tinjauan j Teoritis 2.2.1. User-Based Colla Collaborative abo borative Filtering Pada U UCF, CF, ada banyak tteknik eknik yang digunakan untuk m mencari e cari nilai prediksi en aktif untuk pengguna pe akt tif (P (Paa,i,i ), dim dimulai imul ulai ai dari darri ca cara ra sederhana sed der erha hana dengan m menjumlahkan enjumlahkan semua pengguna memiliki sem mua rating ng da dari r pengg gun unaa llain ain yang memi ili liki ki selera sama saama dengan dengan pe pengguna aktif ((U Ua ) dan kkemudian emudian dibagi dengan jumlah pengguna peng ggu g na ttersebut, erse er sebu b t, hhingga ingga in menggunakan dibahas sebelumnya, meng nggu gunakaan cara pembobotan. Seperti yang sudah diba aha h s se sebe belumnya ya, pengguna pe peng nggunaa lain yang memiliki selera sama dengan Ua disebut dengan denngan neighbor. neig ne ighb h or. ditawarkan, Un Untuk mencari neighborr tersebut banyak cara yang ditawarkan n, ada da yang yan ng mema anfaatkan teknik K-nearest neighbor (KNN) ada juga yang mencar rinya memanfaatkan mencarinya seca cara ra manual dengan mencari irisan dari semua daftar item yang sud dahh di di rating ratiing secara sudah oleh pengguna aktif ((La,i) dengan an ssemua emua ua ddaftar aftar item yang sudah di ratingg oleh oleh pengguna ppe nggu ng g na lain ((Lu,i) satu-persatu (Shinde, S. K. & Kulkarni, U. V., 2011) 2011) 1) dan dan (Gha (G (Ghauth, haut uth, h, K K.. I. & Abdullah, Abd bdul ulla lah, h, N. N. A., A., 20 2011 2011). 1). Ha Hall te terp terpenting rpen nti ting ng yyang angg pe an perl perlu rluu di dipe diperhatikan erh rhat atikan dalam mencari neighbor harus memiliki dala lam m me menc ncar arii ne eig ighhbor adalah adal alah a calon neighbor neighborr setidaknya set etid idak akny nyaa ha haru rus m emiliki kosong (null) beberapa variabel yang tidak ko osong (null ll) dari irisan Lu,i dengan La,i supaya nantinya dapat dilakukan penguku pengukuran kuran kedek kedekatan. katan. Secara garis besar, dalam m me mencari nilai prediksi
(P) dan daftar
aktif, rekomendasi ((L) (L) untuk pengguna aktif f UCF dapat dibagi menjadi tiga tahap yaitu : masukan (input), proses (algoritma UCF) dan keluaran (P dan L). Input yang dimaksud adalah berupa nilai dari irisan La,i dengan Lu,i dan kemudian nilai
12
tersebut akan diproses menggunakan algoritma UCF yang menghasilkan nilai Pa,i. Lihat Rumus (3) untuk skema tahapan UCF, dimana Ij adalah item yang akan algoritma sebelum dicari nilai P-nya. Dalam alg lgor orit itma UCF, se ebe belum mencari nilai Pa,j perlu dicari terlebih dahulu ne neighbor eig ighhbor dari Ua, setelah mendapatka mendapatkan kann neighborr yang cukup, maka kemudian kemuddia ian diambil Lu,j den dengan engaan u adalah ada dala lahh semua se neighbor da dari pengguna aktif (u1 s/dd um). Dari titikk in ini, ni, i Lu,j bisa diproses dengan an bbanyak an nyak jenis algo algoritma, ori r tma, mulai da ari yang pa pali ling ng seder rha hanna, pembobotan ringan da dann pe ppembobotan mbob obot otan an rata-rata ta rating dari paling sederhana, untuk jelasnya U, untu tukk lebih lebbih je le jel lasnya dapat dilihat pada Rumus (1).
Gambar 2.1 2.1 Skema ma Tahapan UCF
ܲǡǡ ൌ
ೆసభ
ோೠǡೕ
............(1)
Pada Rumus (1), variabel m mewakili jumlah neighbor yang sudah terpilih dengan pendekatan tertentu.
Algoritma ini adalah termasuk yang paling
13
sederhana dalam mencari nilai P, disebut sederhana karena dalam perhitungannya tidak melibatkan variabel yang menunjukan bahwa seorang neighbor berbeda dari neighborr lainnya. Algoritmaa sederhana sedderhana in iinii da ddapat pat dikembangkan lagi menjadi sedikit lebih spesifik spessif ifik ik untuk membedakan setiap neighbor, neeig ighbor, caranya dengan bobot masing-masing memberi bobo bot pada masing-ma asing ng nnilai illai Ru, neighbor. neig ghbor. u,jj ne
ܲǡǡ ൌ
ೆసభ ೆ సభ
ήௐ ௐೠ ோೠǡೕ ήௐ .............(2) .............( .(2)
σ ௐೠ
Pada Paada Rumus (2), variabel W adalah bobot yang diberikan uuntuk ntukk pengguna pen enggunaa Um , nil nilai lai W bisa ditentukan secara manual oleh Ua atau pembuat si sistem, ist s em m, bahkan bahk ba h an dapat jjuga uga dicari menggunakan algoritma tertentu. Selain dengan mem mberi bo obo bot memberi bobot un ntu t k setiap neighbor, cara lain untuk mengembangkan rumus (2), yyaitu aitu u dengan denga gann untuk menambahkan variabel variiab bell rrata-rata ata ta-ra rata ta rating ra g dari dari Ua ddan an Um. Lebih L bih jelasnya llihat Le ihaat ih (3). Ru Rumus
ܲǡǡ ൌ ܴത
തೠ ൯ ൫൫ோ ோೠ ൯ ೠǡೕ ǡೕೕ ିோ
ೆసభ ೆస సభ
.........(3 ..... .......(3)
Variabel ܴത didapat dari ra rrata-rata ta-rata Ra,j pada La,j sedangkan ܴത௨ didapat dari rata-rata Ru,j pada Lu,i dengan asum asumsi msi rata-rata rata-rata rating menunjukan “sifat” dasar seorang pengguna. Kata “sifat” m menunjuk enunjuk pada aktivitas lampau seorang pengguna, apakah dia seorang hater yang selalu memberi rating rendah, ataukah ia adalah seorang lover yang selalu memberi rating tinggi pada setiap item dalam
14
L yang dimilikinya. Semakin rendah nilai ܴത pada seorang neighboor maka semakin besar kontribusi nilainya terhadap Pa,j ketika suatu saat ia memberi nilai memberi tinggi pada sebuah item j, tetapi teta tapi pi jjika ika ia membe beri ri nilai rendah terhadap item j maka nilainya kontribusi nilainy ya kecil terhadap pencarian Pa,j. Se Sebaliknya, jika seorang neighborr memiliki memiliki nilai ܴത yang yan angg ti ttinggi, nggi ng gi, maka ma semakin kkecil ecil kontribusinya ec terhadap terhad dap pencarian Pa, ket etika ia memberi rating ti ting tinggi nggi gi pada item j, tetapi te jika ia a,jj ketika nilai sangat besar. me memberi nila ni laii rendah rend re n ah terhadap ter erhhadap item j maka kontribusi si nnilainya ilainy nya sa sang ngat besar r. Algoritma pengguna A lgori rittma pembobotan dan rata-rata rating peng nggu g na jjuga uga dapat ug daapa p t digabungkan Rumus di diga gabu b ngkkan supaya P yang didapat lebih spesifik. Caranya, ppada a a Ru ad Rumu mus (3)) ditambahkan sekali lagi aka dit akan itambahkan variabel bobot untuk setiap neighbor-nya, seka ali lag agi bo bbobot boot dapat ddicari icari dengan menggunakan berbagai cara tergantung dari asum msi pembu buaat asumsi pembuat si sist s em m, lihat Rumus (4). sistem,
ܲǡǡ ൌ ܴത
തೠ ൯ ൫ோ ோೠ ൯ ήήௐ ௐೠ ೠǡೕ ǡೕ ିோ
ೆసభ
σ ௐೠ
.................(4) ...... ...............((4)
Dengan menggabungkan rata-rata De Deng ngan an m en ngg ggabungkan n ppembobotan embobotaan dan rata a-r -rat a a rating rati ra ting ng pengguna, peng pe nggu guna, a nilai Pa,j yang didapat akan lebih bersifat berssifat pribadi di karena melibatkan dua variabel yang berasal dari kegiatan lampau pengguna penggguna aktif f, maupun neighbor. aktif, Pada penelitian kali ini, peneliti pene neliti menggunakan Rumus (4) untuk mencari prediksi, karena variabel yang digunakan prediksi digunak kan sangatlah spesifik dan melibatkan lebih banyak variabel (rata-rata rating pengguna aktif, rating pengguna aktif terhadap item aktif, rata-rata rating neighbor hingga nilai bobot kedekatan antara neighbor
15
dengan pengguna aktif) yang ada dalam sistem rekomendasi.
Peneliti juga
memanfaatkan metode pengukuran Pearson-Correlation Coefficient untuk mengukur seberapa “dekat” pe pengguna pen ngguna aktif if ddengan e gan pengguna lainnya. Semakin en dekat pengguna ter tersebut rse sebbut dengan pengguna aktif, makaa ia akan menjadi kandidat sumber rekom rekomendasi (neighbor) nilai mempengaruhi omendasi (neighbor r) da dann ni nila laii rating-nya ratiing ra ng-nya akan memp mpengaruhi semua prediksi akan dihitung nilai pr pre ediksi yang ak kan dih ihitung nantinya. 22.2.2. .2.2. Pearson-Correlation Pear Pe arso son-Coorr rrelation Coefficient Korelasi menentukan Koreelasi adalah sebuah teknik pengukuran yang mene nentukkan sseberapa eberap pa dekat relasi syarat deka de kat rela asi antar dua himpunan bilangan yang berbeda. Dengan sy yarat hhimpunan impu im punann bilangan dengan bila bi langaan tersebut harus memiliki urutan yang tetap dan berpasangan n satuu de den ngan an lainnya relasi positif lainny ya antar kedua himpunan. Hasil pengukuran dapat berupa re elasi po ositiif ataupun atau aupu pun relasi negatif. Relasi positif menunjukkan menunju j kkan bahwa keduaa hhimpunan impuna im nann kenaikan Sedangkan memiliki kecenderungan kenaika kann at atau ppenambahan enaambahan nilai yang sejajar. Sedang en ngka kann relasi r la re lasi s negatif menunjukkan kedua himpunan memiliki kecenderungan ppenurunan enur urun unaan atau sejajar. Sejajar at au ppengurangan engu en gura rang ngan an nnilai ilai il ai yyang angg se an seja jaja jar. r. Sej ejaj ajar ar dalam dal alam am konteks kon onte teks ks iini ni berarti ber erar arti ti penurunan pen enur uruunan kenaikan tersebut. atau u ke kena naik ikan an nilai ai yyang ang saling ng mengikuti ti antar kedua ked dua variabel varria iabe bell te ter rseb but. Salah satu teknik pengukuran korelasii adalah Pearson Pearson Product Moment Correlation atau biasa disingkat menjadi Pearson Correlation. Pearrson Corre elation. Rumus yang digunakan pad pada ada te teknik pengukuran ini bisa dilihat pada rumus (5) dibawah ini:
16
ݎൌ
ሺσ ௫௬ሻିሺσ ௫ሻሺσ ௬ሻ ඥሾ σ ௫ మ ିሺσ ௫ሻమ ሿሾ σ ௬ మ ିሺσ ௬ሻమ ሿ
.................(5)
Variabel r menunjukkan men enunjukkan nilai korelasi yang didapat didapat dari dua himpunan bilangan x da dan an y yang memiliki k urutan dan berpasangan. N Nilai ilai il a r memiliki batas yaitu yaitu atas yai itu 1 dan batas as bbawah aw wah yai aitu u -1. JJika ik ka r bernilai b rn be rnil ilai ai 0 berarti kedua ked edua himpunan tidak memiliki bernilai tida ak memi ili liki ki relasi relasi sama ma sekali. Jika r be bern rnil i ai 1 berarti berrar arti ti kedua kedua hhimpunan i punan im memiliki memi miliki ki penambahan pen e amba bahan nilai yang searah (sejajar), sedangkan sedan ngk gkan jjika ikaa r bernilai ik bernil ilai a -1 maka ka kedua keduaa hhimpunan impunan memiliki penurunan yang searah. Untukk r yang yaang bbernilai ernilaii 1 atau -1 bi atau bisa disimpulkan bahwa kedua himpunan memiliki relasi atau at kedekatan. ked edek ekat a an. Lihat yang memiliki Li Liha h t pada pada Gambar 2.2 untuk contoh dua himpunan bilangan yan ang me memi m liki k korelasi korela asi negatif dan positif.
Gambar 2.2 Contoh himpunan bilan bilangan nga g n yang ng memiliki korelasi yang positif dan negatif
Variabel V i b l I1 ddan I2 adalah d l h ddua hi himpunan bil bilangan yang berurutan b ddan berpasangan dari U1 – U10.
17
2.2.3. Evaluasi Sistem Rekomendasi Dalam sistem rekomendasi, terutama yang memanfaatkan perhitungan keakuratan prediksi, evaluasi keakura rata tan daftar rekomendasi si dan dan prediksi sangatlah penting. Dengan memanfaatkan meman nfa faatkan teknik k evaluasi yang sudah tersedia, ter ersedia, peneliti dapat mengetahui akurat teknik rekomendasi mengetah hui seberapaa ak kur urat tekni n k re reko kome mend ndas asi da dann prediksi yangg dikembangkan. yaitu Absolute Padaa bbagian agia ag i n ini, akan aka kann ddibahas ibahas tiga jjenis en nis evaluasi evaluasi ya yait ituu : Mean A bsolute Error (MAE), Precision, bertujuan menghitung seberapa E rrorr (M MAE AE), Pr recision, dan Recall Value. MAE bertujua an meng nghi hitu tung n seb ber e apa besar rata-rata besa sarr ra rata-rat ata selisih nilai prediksi ratingg yang dihasilkan oleh oleeh peneliti peene neli liti ti dengan dengaan nilai rating ni nila laii rati ting yang diberikan oleh pengguna, sedangkan Precision Precisio on dan dan Recall Re l bertujuan be ber rtujua uan
untuk
menghitung
seberapa
banyak
persentase
item m
yang ng
direkomendasikan direko omendasikan dan di beri ratingg oleh pengguna ataupun item yang yanng sudah ah ddii rating rati ting ng tetapi tidak direkomendasikan oleh sistem. Evaluasi MAE memanfaatkan memanfaatka kann teknik tekknik perhitungan yang sangat sederhana, te seder erha hana na, yaitu ya yait i u dengan denggan mencari selisih dari semua item yang sudah diberi de diber erii rating rati ting ng oleh ol pengguna memiliki Nantinya absolutepe peng nggu g na dan mem mil ilik ikii nilai prediksi. pred edik iksi si. Na Nant ntinya selisih sellis isih ih tersebut ter ersebut akan ddii ab abso solute(nilai MAE, dapat kan (n (nil ilai ai ppositif) osit os itif if)) dan akhirnya ddirata-rata. i ata-rata ir ta. Dari hasil M AE, da AE dapa patt te terlihat jelas seberapa “jauh” selisih nilai prediksi preediksi ratingg yang diberikan oleh sistem dengan nilai rating yang diberikan oleh pe ppengguna. nggunaa. Semakin besar nilai yang dihasilkan bahwa oleh MAE maka dapat diartikan ba ahwaa nilai prediksi yang dihasilkan semakin MAE tidak akurat, akurat sebaliknya jika nilai MA M E yang dihasilkan mendekati 0 maka prediksi yang dihasilkan sistem semakin mendekati akurat. Rumus yang digunakan dalam evaluasi MAE dapat dilihat dibawah ini :
18
ଵ
ൌ ୀଵหܲǡ െ ܴǡ ห
..........(6)
Untuk ݊ adalah jumlah sem semua emua ua it iitem em pada daftar rekomendasi pengguna aktif yang memiliki nilai nillai prediksi. ܲǡ adalah ni ni nila nilai lai prediksi item ke-݅ milik pengguna aktif if dan ܴǡ adalahh nilai rating yang diberikan oleh oleh pengguna aktif item untuk it tem ke-݅. Selanjutnya, dihasilkan Sela lanj njut utnnya, untuk unt ntuk mengevaluasi hasil rekomendasi rekome mendasii ya yang ng dihasilka kan oleh Precision sistem m melalui mel elaluii teknik teknik peyaringan yang dibuat oleh peneliti, Pr P ecissio ionn dan da Recall Reeca c ll Value dimanfaatkan rekomendasi Va Valu lue dim manfaatkan untuk melihat seberapa akurat rekomen ndasi item item yang yan ng dihasilkan di diha hasilkaan untuk tiap pengguna sistem. Dalam memberikan rekomendasi, ada beberapa kemungkinan n yang ak akan n di diha h sillkan, antara lain : (1) item yang sudah diberi rating oleh pengguna, pengggunna, jug ugaa dihasilkan, juga direkomendasikan sistem rekomendasikan, direkomendasik ikan an ooleh lehh si le sist stem em ((True-Positive); True Tr u -Possit itiv ivee); ((2) 2) it item em ya yang ng di rekomendasik ikan an, tetapi te eta t pi tidak di rating oleh pengguna; ((3) 3 item yang sudah di beri rating tetapi 3) tetaapi ttidak id dak direkomendasikan. Beberapa menjadi di dire reko kome mend ndasik ikan. Be Bebe bera rapa pa kkemungkinan emungkinan em an ttersebut erse er sebu butt bi bisa ddiringkas iriingk gkas m enja en jadi di ttabel abel dibawah di diba bawa wahh in ini. i. Beberapa Tabel 2.2 Klasifikasi Dari B eberapa Kemungkinan Kemungkinan Hasil Rekomendasi Sudah Diberi Rating Tidak Diberi Rating
Rekomendasi Reko omendasi
Tidak Direkomendasikan
True-Positive True-Pos sitive (T (TP)
False-Negative (FN)
False-Positive False-Positi ive (FP)
True-Negative (TN)
19
Hasil dari klasifikasi diatas dapat dimanfaatkan untuk mencari nilai Precision dan Recall. Precision dapat diasumsikan sebagai sebuah cara untuk melihat seberapa banyak item em yang “tepat” t” ddirekomendasikan irekomendasikan untuk pengguna sistem, sedangkan n Recall Recall dapat diasumsikan sebagai seba baga gai sebuah cara untuk mengetahui seberapa seberapa banyak
item sudah ittem yang yang sud udah di rating oleh ole pengguna dan
direkomendasikan untuknya. untuk mencari dan direko omendasikan unt ntuk ukny nya. Untuk itu, rumus un ntu tukk me m ncari nilai Precision Pr Recall Re ecall adalah adal alah ah :
ܲ݊݅ݏ݅ܿ݁ݎ ܲ ݊݅ݏ݅ܿ݁݁ݎൌ σ ܴ݈݈݁ܿܽ ൌ σ
σ ் ்ା σ ி ்ାσ σ ் ்ା σ ிே ்ାσ
..............(7) ..... .............(7)
..............(8) ..............( (8)
Jika nilai Precision mendekati 1 maka berarti rekomendasi yan ng di dib berika kann yang diberikan kepada pengguna banyak yan angg di ddigunakan guna naka kann (d (di beri rating) oleh pengguna, pengggun unaa, yang se seba baliknya jika semakin mendekati 0 maka rekomendasi yang diberikan n ba bany nyaak sebaliknya banyak yang ttidak yang idak id ak ttepat epat ep at uuntuk ntuk nt uk ppengguna engg ggun unaa si sist stem. sistem.
20