OPTIMALISASI IKLAN DENGAN SISTEM KONTRAK MENGGUNAKAN METODE CONTEXTUAL ADVERTISING PADA PORTAL BERITA ONLINE WWW.PIKIRAN-RAKYAT.COM Enda Esyudha Pratama1, Suhardi2 Magister Teknologi Informasi Sekolah Teknik Elektro dan Informatika (STEI) Institut Teknologi Bandung, Jl Ganesha 10 Bandung Jawa Barat Indonesia.
[email protected],
[email protected]
Abstrak Penelitian ini mengamati tentang permasalahan yang dihadapai oleh penyedia portal berita online dalam hal manajemen iklannya. Umunya iklan berbasis kontrak yang ditampilkan masih secara acak atau random. Belum berdasarkan dengan relevansi berita yang sedang dibaca. Dengan adanya metode contextual advertising dalam bidang online advertising, akan sangat membantu advertiser maupun publisher dalam menampilkan iklan yang sesuai. Dengan melakukan Information Retrieval di dalam suatu berita, akan didapat informasi penting didalamnya. Informasi itulah yang digunakan oleh sistem untuk menentukan dan menampilkan iklan yang relevan. Berdasarkan hasil pengujian yang dilakukan dari 50 dokumen berita dari 5 macam kategori, nilai relevansi yang diperoleh menunjukan metode contextual advertising dapat bekerja secara baik dalam hal menampilkan iklan yang relevan terhadap suatu berita. Kata Kunci : Portal Berita Online, Iklan, Contextual Advertising, Information Retrieval, Relevan
1.
Pendahuluan
1.1 Identifikasi Masalah Portal berita online masih menjadi primadona model usaha online saat ini. Baik itu yang memang mendirikan secara langsung maupun yang melakukan duplikasi dari media cetak ke media onlinenya. Tak terkecuali portal berita online www.pikiran-rakyat.com. Jika dibandingkan dengan media cetaknya yang memiliki pendapatan dari penjualan dan pemasangan iklan, sumber income utama berita online pikiran-rakyat.com masih sama seperti media-media online lainnya, yaitu dari iklan online atau lebih sering dikenal dengan online advertising. Bentuk model bisnis online yang paling sederhana diaplikasikan di sini, yaitu memberikan content kepada mayoritas pengunjung, dengan sejumlah kecil (minoritas) lain membayar agar jasanya terlihat oleh
mayoritas tersebut. Beberapa jenis iklan lain sudah pernah dicoba, misalnya Google AdSense maupun ad network, namun setelah dievaluasi, ternyata masih lebih menguntungkan memasarkan iklan sendiri yang umumnya masih berdasarkan sistem kontrak. Sistem kontrak umumnya masih menggunakan cara yang tradisional yaitu dengan menampilkan banner ads. Iklan akan ditayangkan di space (tempat) yang telah ditentukan selama 24 jam selama masa kontrak. Traffic log report akan dikirim melalui email pengiklan. Keunggulan sistem kerja sama ini adalah bentuknya yang sederhana dan pengiklan tidak perlu secara realtime mengontrol performa iklan yang ditayangkan. Di sisi lain, publisher dapat lebih pasti dalam pemasukan iklan terutama untuk jangka waktu tertentu.
Namun, pada sistem iklan berbasis kontrak ini masih memiliki beberapa kelemahan. Selain iklan yang ditampilkan dikelompokan berdasarkan kategori atau kanal berita, iklan lain yang ditampilkan masih secara random atau acak. Belum berdasarkan berita yang sedang dibaca pengunjung. Dapat dilihat pada source code berikut:
saja. Beberapa space lainnya digunakan untuk iklan dari google adsense
Gambar 1.1 Iklan di www.pikiran-rakyat.com
Gambar 1.1 Source code untuk menampilkan iklan di www.pikiran-rakyat.com yang masih menggunakan teknik random atau acak Metode ini memang terkadang efektif namun dirasa masih kurang optimal. Berdasarkan data survey yang diperoleh, rata-rata pengunjung jarang tertarik pada iklan yang tidak ada kaitannya dengan berita yang dibaca. 1.2 Rumusan Masalah Bentuk iklan online dengan sistem kontrak masih memiliki kelemahan terutama dalam hal optimasi. Apabila suatu iklan dipasang pada kanal berita tertentu, maka hal tersebut dapat mengurangi potensi user untuk melihat iklan tersebut jika sedang tidak berada pada kanal yang dimaksud. Padahal setiap user memiliki potensi untuk tertarik pada setiap iklan apa saja. Jika setiap iklan ingin dipasang pada halaman utama, tentunya itu akan menyulitkan untuk pihak penyedia portal dalam menyediakan space dan mengganggu kenyamanan user dalam membaca berita. Selain itu, portal berita www.pikiranrakyat.com belum memaksimalkan space iklan yang ada pada setiap halaman berita yang sedang dibaca. Berdasarkan pengamatan yang dilakukan untuk satu halaman berita yang sedang dibuka, hanya terdapat satu jenis iklan
Dari uraian di atas, dapat dirumuskan masalah yaitu: selain iklan yang ditampilkan dikelompokan berdasarkan kategori berita dan secara random atau acak, bagaimana menambah dan mengoptimalkan space iklan berbasis kontrak berdasarkan halaman berita yang sedang dibaca oleh pengunjung. Iklan yang ditampilkan pada halaman yang sedang dibaca diurutkan berdasarkan tingkat relevansinya meskipun tidak memiliki kesesuaian dengan kategori berita yang dibaca. 1.3 Hasil dan Keluaran Melalui studi ini, akan dilakukan pemrosesan terhadap teks suatu berita untuk kemudian diambil informasi penting didalamnya yang dapat digunakan untuk melakukan perhitungan relevansi terhadap iklan yang ditampilkan. Simulasi akan dilakukan menggunakan data sekunder dengan menggunakan berbagai asumsi yang relevan jika diperlukan. Dari proses yang telah dilakukan, diharapkan iklan berbasis kontrak yang terdapat pada situs pikiran-rakyat.com dapat dioptimalkan penayangannya dan tentunya menarik lebih banyak pengunjung di sisi pemasang iklan atau advertiser. Tingkat pengukuran matriks yang dilihat terletak pada dua aspek yaitu tingkat relevansi iklan dan pegaruh positif iklan yang ditampilkan terhadap pengungjung pikiran-rakyat.com
2.
Landasan Teori
2.1 Computational Advertising Computational Advertising (CA), biasa dikenal dengan Online advertising atau Web advertising, yang mengacu untuk mencari sebuah ads yang paling relevan dan sesuai dengan context tertentu pada sebuah web yang memiliki masalah utama yaitu bagaimana menampilkan satu set ads yang paling cocok diantara keyword yang telah diberikan oleh user dengan konteks yang ditampilkan dan menampilkan iklan yang sesuai. Berdasarkan pada konteks, CA bisa dibagi menjadi 3 bagian: a. Sponsored Search, mengacu pada penempatan ads pada halaman hasil pencarian (search engine) seperti Google, dan Yahoo. Iklan ditampilkan berdasarkan aturan bidding. b. Contextual Advertising, mengacu pada penempatan ads yang sesuai dengan web pages yang dibuka. c. Social Advertising, mengacu pada penempatan ads pada home pages pribadi disuatu social network tertentu. 2.2 Contextual Advertising Teknologi periklanan di media online semakin beragam. Salah satu yang saat ini jadi primadona adalah contextual advertising, sistem yang mampu mendeteksi tampilnya iklan, baik teks maupun gambar, menurut relevansi content di halaman web. Iklan kontekstual kadangkala disebut juga Content Targeting. Cara kerja sederhana dari sistem ini adalah mencari keyword dari halaman web dan ads yang akan ditampilkan kemudian mengukur tingkat kecocokan dan relevansinya. Selain itu sistem ini juga mampu menampilkan iklan menurut target tertentu seperti wilayah, kategori, kata kunci. Contextual advertising berkembang pesat seiring tuntutan pengelolaan iklan yang cepat, otomatis dan akurat. Metode ini dianggap paling sesuai untuk memecahkan masalah iklan di pikiran-rakyat .com khusunya dalam hal menampilkan iklan yang sesuai dengan isi berita.
2.3 Metode Klasifikasi Teks Pengklasifikasian teks sangat dibutuhkan dalam berbagai macam aplikasi, terutama aplikasi yang jumlah dokumennya bertambah dengan cepat. Ada dua cara dalam penggolongan teks, yaitu clustering teks dan klasifikasi teks. Clustering teks berhubungan dengan menemukan sebuah struktur kelompok yang belum kelihatan (tak terpandu atau unsupervised) dari sekumpulan dokumen. Sedangkan pengklasifikasian teks dapat dianggap sebagai proses untuk membentuk golongangolongan (kelas-kelas) dari dokumen berdasarkan pada kelas kelompok yang sudah diketahui sebelumnya (terpandu atau supervised). Banyak metode yang dapat digunakan untuk pengklasifikasian teks [Yang, 1999], antara lain adalah Naıve Bayes , k-nearest neighbor [Yavuz, 1998], Support Vector Machines (SVM), boosting, algoritma pembelajaran aturan (rule learning algorithms) dan Maximum Entropy (MaxEnt). Dalam makalah ini mengggunakan dua metode yaitu : Naïve Bayes. Metode Naïve Bayes dikenal dengan algoritma klasifikasi simple Bayesian. Algoritma ini banyak digunakan karena terbukti efektif untuk kategorisasi teks, sederhana, cepat dan akurasi tinggi. Klasifikasi atau kategorisasi teks merupakan suatu proses penempatan suatu dokumen ke suatu kategori atau kelas sesuai dengan karakteristik dari dokumen tersebut. Klasifikasi termasuk pembelajaran jenis supervised learning. Jenis lain adalah unsupervised learning atau dikenal sebagai clustering. Pada supervised learning, data latihan mengandung pasangan data input (biasanya vektor) dan output yang diharapkan, sedangkan pada unsupervised learning belum terdapat target output yang harus diperoleh.
Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu: 1. Fase information retrieval (IR) untuk mendapatkan data numerik dari dokumen teks. Dalam IR ini sendiri, terdapat beberapa proses lagi untuk mengubah data yang tidak terstruktur dari suatu dokumen menjadi sebuah informasi penting. Proses yang terjadi diantaranya, preproccesing, tokenizing, filtering, dan stemming 2. Fase klasifikasi utama ketika suatu algoritma memroses data numerik tersebut untuk memutuskan ke kategori mana teks ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah Naive Bayesian, Rocchio, Decision Tree, kNearest Neighbor, Neural Network, dan Support Vector Machines. Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari.
Gambar 2.1. Dua Fase Klasifikasi Teks
kata yang lain dalam kalimat padahal dalam kenyataanya bahwa kemungkinan kata dalam kalimat sangat dipengaruhi kemungkinan keberadaan kata-kata yang dalam kalimat. Dalam Naïve Bayes di asumsikan prediksi atribut adalah tidak tergantung pada kelas atau tidak dipengaruhi atribut laten.
Gambar 2.2. Klasifikasi Naïve Bayes sebagai jaringan bayes dengan atribut prediksi (P1,P2,…….Pk) dan kelas (C) C adalah adalah anggota kelas dan X adalah variabel acak sebuah vektor sebagai atribut nilai yang diamati. c mewakili nilai label kelas dan x mewakili nilai atribut vector yang diamati. Jika diberikan sejumlah x tes untuk klasifikasi maka probablitas tiap kelas untuk atribut prediksi vektor yang diamati adalah
X = x adalah mewakili kejadian dari
2.4 Algoritma Naive Bayes Klasifikasi–klasifikasi Bayes adalah klasifikasi statistik yang dapat memprediksi kelas suatu anggota probabilitas. Untuk klasifikasi Bayes sederhana yang lebih dikenal sebagai naïve Bayesian Classifier dapat diasumsikan bahwa efek dari suatu nilai atribut sebuah kelayang diberikan adalah bebas dari atribut-atribut lain. Asumsi ini disebut class conditional independence yang dibuat untuk memudahkan perhitungan - perhitungan pengertian ini dianggap naive”, dalam bahasa lebih sederhana naïve itu mengasumsikan bahwa kemunculan suatu term kata dalam suatu kalimat tidak dipengaruhi kemungkinan kata-
Algoritma Naive Bayes sangat berbeda dengan algoritma rule-based learning. Naïve Bayes adalah sebuah algoritma analisa statistik, yang bekerja dengan mengolah data numerik. Metode ini menggunakan probabilitas Bayesian. Tentunya untuk mendapatkan probabilitas dari tiap kata, filter harus terlebih dahulu melakukan pembelajaran terhadap setiap kata-kata dan probabilitasnya. Naive Bayes merupakan teknik klasifikasi yang sederhana dan cepat. Teknik ini bekerja dengan baik dengan representasi statistik.
3.
Metode Penelitian
3.2 Pengolahan Data
3.1 Himpunan Data Peneletian Pada penelitian ini, himpunan data yang akan diuji adalah kumpulan artikel-artikel yang disadur dari lima macam kategori/kanal berita di pikiran-rakyat.com Dari tiap kategori dipilih 10 berita secara acak sehingga total artikel yang diuji sebanyak 50 artikel. Adapun kategori berita yang dipilih yaitu: 1. Politik, 2. Olahraga, 3. Pendidikan, 4. Showbiz, 5. Otomotif. Kemudian dipilih juga 10 macam iklan dari berbagai jenis kategori iklan seperti teknolgi, kesehatan, event, makanan minuman, dan otomotif. Dari beberapa iklan tersebut, lima macam iklan sedang tampil di pikiranrakyat.com dan 5 iklan lainnya menggunakan data sampling dengan menyesuiakan jenis iklan yang belum terdapat di pikiranrakyat.com. Pada tiap iklan tersebut ditambahkan data description atau keyword yang menjelaskan tentang produk yang diiklankan. Tabel 3.1 Data iklan dari pikiran rakyat dan sumber lain sebagai data sampling No
Nama Iklan
1
Nokia Lumia
2
Axis
3
Skin Care
4
Nutrion Susu Kids
5
Bii
6
Pilkada Jabar
7
Philips Pisau Cukur
8
Shell Oil
9
Nike Running Shoes
10
Swinburne Univ
Kategori
Sumber
Teknologi Produk wanita
pikiranrakyat.com
Produk anak
Langkah selanjutnya adalah melakukan pemrosesan pada data-data tersebut. Inforamtion Retrieval (IR) dilakukan pada tiap berita. Informasi penting yang terdapat didalamnya akan diukur tingkat relevansinya oleh sistem dengan cara mengukur frekuensi kemunculan kata yang sesuai dengan keyword tiap iklan. Sistem akan mengurutkan peringkat iklan berdasarkan tingkat relevansinya. Iklan yang kata kuncinya memiliki frekuensi kemunculan paling banyak pada suatu berita dianggap paling relevan. Selanjutnya iklan tersebut yang nantinya akan ditampilkan pada berita yang sedang diproses tersebut. Untuk pengujian kali ini, iklan yang ditampilkan hanya yang berada pada peringkat satu. 3.3 Perancangan dan Pembuatan Aplikasi Sebagai alat pemrosesan data dirancang dan dibuat suatu aplikasi berbasis web menggunakan bahasa pemograman PHP. Basis data sebagai storage untuk menyimpan data berita iklan dan berbagai data lain yang diperlukan. Aplikasi mendapat masukan berupa berita dalam file .txt yang kemudian mengahsilkan keluaran berupa informasi data teks yang telah diproses dan iklan mana yang paling relevan.
MULAI
Data Berita
Information Retrieval & Preproccesing
Bank / Ekonomi Politik Produk Pria Otomotif Produk Olahraga Pendidikan
Sumber lain (data sampling)
Keyword Berita Tidak
Perhitungan nilai relevansi terhadap iklan yang ada
Score relevansi >0
Tidak
Gambar 4.2. Tampilan Perangkat Lunak Dalam Memproses dan Menentukan Iklan yang Relevan Terhadap Berita yang Dibaca
Ya Iklan yang relevan
SELESAI
Gambar 3.1. Flowchart Program
4
Implementasi dan Pengujian
Pengujian dilakukan untuk melihat kinerja dari algoritma Naïve Bayes dalam menentukan iklan yang relevan terhadap suatu berita. Setiap sepuluh berita dari suatu kategori, akan dicatat iklan dari kategori mana saja yang muncul. Kemudian akan dihitung akurasi rataratanya dari tiap kategori iklan yang tersedia.
Sistem membutuhkan masukan dau macam data yaitu berupa data iklan beserta kata kuncinya dan data berita atau dokumen yang disimpan dalam bentuk file .txt. Setiap berita yang akan diproses terlebih dahulu harus disimpan dalam file .txt tersebut. Selanjutnya sistem akan memproses dan menghasilkan keluaran berupa informasi iklan mana yang paling relevan dan kata-kata yang diproses dalam suatu berita atau dokumen. Tabel 4.1 Data frekuensi kemunculan iklan pada tiap kategori berita Iklan
Politik
Olahraga
Pendidikan
Showbiz
Otomotif
1
-
-
-
1
-
2
-
-
-
1
-
3
-
-
-
2
1
4
-
-
1
-
1
5
-
-
-
1
-
6
8
-
-
-
-
7
-
3
-
2
-
8
1
-
-
-
5
9
-
7
-
1
-
10
1
-
9
2
3
5.
Hasil Pengujian dan Analisa
Dari pengujian yang dilakukan didapatkan hasil sebagai berikut:
Gambar 4.1. Tampilan Perangkat Lunak Untuk Memasukan Data Iklan
Pada kategori politik, iklan yang muncul pada setiap berita yang dijadikan data uji memiliki relevansi yang tinggi dengan nilai rata-rata 0,8. Iklan yang muncul mengenai pemilihan gubernur Jawa Barat.
Pada kategori olahraga, terdapat dua kategori iklan yang dianggap paling relevan oleh sistem yaitu iklan tentang produk olahraga dan pisau cukur. Masing-masing kategori tersebut memiliki nilai relevansi rata-rata 0,7 dan 0,3. Pada kategori pendidikan, memiliki kemiripan dengan pola pada kategori olahraga. Kategori iklan yang sering muncul berasal dari kategori pendidikan dan produk anak. Tetapi untuk iklan tentang pendidikan nilai relevansinya jauh lebih tinggi disbanding dengan produk anak. Nilai relevansi iklan kategori pendidikan sebesar 0,9, sedangkan untuk produk anak hanya 0,1 Pada kategori showbiz, tidak ada iklan khusus yang memiliki kategori yang sama dengan kategori berita. Persebaran iklan pada kategori berita ini sangat beragam dan tentunya bergantung dari berita yang diproses. Kategori iklan yang muncul berasal dari kategori teknologi, produk wanita, produk pria, bank, produk olahraga, dan pendidikan. Masingmasing kategori memiliki nilai relevansi 0,2, 0,2, 0,1, 0,2 0,1 dan 0,2. Pada kategori otomotif, kategori iklan yang muncul terdiri dari empat macam yaitu: produk wanita, produk anak, minyak/oli, dan pendidikan. Nilai relevansinya 0,1, 0,1, 0,5, 0,3. Untuk kategori otomotif ini, iklan yang ada kaitannya dengan kategori tersebut adalah produk bbm. Namun nilai relevansinya cukup rendah yaitu 0,5.
Iklan yang relevan juga sangat menarik minat pembaca untuk membukanya. Berdasarkan data hasil kuesioner yang telah dilakuan dengan melibatkan 50 peserta, 60% pembaca menyukai iklan yang relevan terhadap suatu berita yang sedang mereka baca. Sebesar 26% kadang tertarik namun kadang mengabaikan. Dan sisanya sekitar 14% tidak pernah memperhatikan iklan yang tampil. Data Hasil Kuesioner Mengenai Iklan yang Relevan 7 13
Tertarik 30
Tidak Selalu Mengabaikan
Gambar 5.1. Grafik Data Hasil Kuesioner
Jika dibandingkan dengan data kuesioner sebelumnya dimana pikiran-rakyat.com menampilkan iklan secara acak, maka dapat dilihat beberapa perubahan yang terjadi pada perlaku pengunjung terhadap suatu iklan. Pada saat iklan ditampilkan secara acak, jumlah pengunjung yang memilih pilihan kadang tertarik kadang tidak cenderung lebih banyak daripada yang tertarik. Persentasenya bisa mencapai 50%. Sedangkan untuk yang tertarik dan yang tidak persentasenya masingmasing 30% dan 20%.
Berdasarkan data hasil uji tersebut dapat dilihat tingkat relevansi suatu kategori berita terhadap iklan yang ditampilkan. Apabila suatu iklan memiliki kategori yang sama dengan kategori berita yang ditampilkan maka nilai relevansinya akan sangat tinggi.
40 30 20 10 0
Pada kasus lain, pada kategori berita bersifat umum atau tidak bersesuaian dengan jenis atau kategori iklan yang tersedia, sistem akan menampilkan iklan sesuai dengan berita yang sedang dibuka. Pada kategori berita showbiz, dapat dilihat iklan yang ditampilkan hampir merata untuk setiap kategorinya. Tentunya hal ini akan ssangat efisien dibandingkan harus menampilkan iklan secara acak atau random.
Gambar 5.2. Grafik Perbandingan Menampilkan Iklan secara random dengan contextual
Random Contextual
6.
Kesimpulan dan Saran
Daftar Pustaka
Setelah menerapkan metode contextual advertising dengan menggunakan algoritma Naïve Bayes untuk menampilkan iklan yang relevan terhadap suatu berita, didapat beberapa kesimpulan yaitu:
A. J. M. Abu Afza, Dewan Md. Farid, and Chowdhury Mofizur Rahman, “A Hybrid Classifier using Boosting, Clustering, and Naïve Bayesian Classifier”, World of Computer Science and Information Technology Journal (WCSIT) ISSN: 2221-0741 Vol. 1, No. 3,105-109, 2011.
1.
Metode contextual advertising dengan algortima Naïve Bayes dapat bekerja secara baik dalam hal menampilkan iklan yang relevan terhadap suatu berita. Nilai akurasi rata-ratanya lebih dari 75% untuk data uji sebanyak 40 berita. Kategori berita yang digunakan memiliki kemiripan dengan kategori iklan yang tersedia.
Anonim. Retrieved Oktober 7, 2012, from Digital Library Telkom Institute of Technology: http://digilib.ittelkom.ac.id/index.php?option =com_content&view=article&id=486:naivebayes-classifier&catid=11:sistemkomunikasi&Itemid=14
Pada kategori berita yang bersifat umum, algoritma Naïve Bayes akan menampilkan iklan yang relevan sesuai dengan berita. Rata-rata kemunculan tiap kategori iklan sebanyak satu kali dengan data uji sebanyak 10 macam berita. Pada pengujian kali ini, kategori berita yang digunakan adalah kategori showbiz atau dunia hiburan.
David D. Lewis. Naive (bayes) at forty: The independence assumption in Information retrieval. pages 4–15. Springer Verlag,1998.
Berdasarkan survei yang dilakukan dengan melibatkan 50 responden, data hasil kuesioner menunjukan pembaca berita lebih tertarik dengan iklan yang relevan terhadap suatu berita dibandingkan dengan yang ditampilkan secara acak. 60% pembaca tertarik untuk melihat iklan yang relevan, 26% terkadang melihat, sedangkan sisanya 14% tidak memperhatikan iklan yang ditampilkan.
S. M. Kamruzzaman, Farhana Haider and Ahmed Ryadh Hasan. Text Classification using Association Rule with a Hybrid Concept of Naive Bayes Classifier and Genetic Algorithm. Department of Computer Science and Engineering International Islamic University Chittagong, Bangladesh.
2.
3.
Sebagai langkah perbaikan untuk penelitian yang akan datang, dapat dipertimbangkan beberapa hal antara lain: 1.
2.
Penambahan jumlah iklan, baik itu untuk kategori iklannya maupun iklan dalam suatu kategori yang sama. Penggunaan keyword iklan dapat lebih detail. Penggunaan data uji dalam hal ini dokumen atau berita yang lebih beragam baik itu untuk kateegorinya maupun isi atau content berita
Dave, Kushel. Computational Advertising: Leveraging User Interaction & Contextual Factors for Improved Ad Retrieval & Ranking, International Institute of Information Technology Hyderabad, India, 2011.
Fabrizio Sebastiani and Consiglio Nazionale Delle Ricerche. Machine learning in automated text categorization. ACM Computing Surveys, 34:1– 47, 2002. Rish Irina, "An empirical study of the naive Bayes classifier", IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence.
Yiming Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, 1:67–88, 1999.