Pendaringan KBBI
David Moeljadi 22 September 2016 Jurusan Linguistik dan Kajian Multibahasa, Fakultas Humaniora dan Ilmu Sosial, Universitas Teknologi Nanyang Lokakarya Pemutakhiran Kamus Besar Bahasa Indonesia, Best Western Premier The Hive Hotel, Jakarta, 21–23 September 2016
Perkenalan diri David Moeljadi 2014 - (2018?) S3 Linguistik di Universitas Teknologi Nanyang 1986 lahir - TK - SD - SMP - SMA (Jurusan Bahasa) di Malang, Jawa Timur 2004 - 2005 S1 Sastra Jepang di Univ. Bina Nusantara, Jakarta 2005 - 2006 Pusat Bahasa dan Kebudayaan Jepang, Universitas Kajian Asing Osaka 2006 - 2010 S1 Linguistik di Univ. Tokyo 2010 - 2012 S2 Linguistik di Univ. Tokyo 2012 - 2013 Rakuten Travel, Inc. di Tokyo 2013 - 2014 Lembaga Penelitian Bahasa dan Budaya Asia dan Afrika, Universitas Kajian Asing Tokyo compling.hss.ntu.edu.sg/who/david/ 1
Proyek saat ini
1. Indonesian Resource Grammar (INDRA) github.com/davidmoeljadi/INDRA chimpanzee.ling.washington.edu/demophin/indra/ delph-in.github.io/delphin-viz/demo/
2. Wordnet Bahasa 3. NTU Multilingual Corpus compling.hss.ntu.edu.sg/ntumc/
4. Indonesian Loanword Search Engine david.blogid.me/loanword_searchengine
5. Kamus Pemelajar Kanji Jepang-Indonesia 6. KBBI IV 7. Analisis sentimen teks bahasa Indonesia 2
Pendaringan KBBI
1. Dari Excel dan Word ke Pangkalan Data 2. Dari Pangkalan Data ke KBBI Daring 3. Perbaikan KBBI dengan menggunakan TIK 4. Dari KBBI Daring ke Antarmuka pengguna
3
Dari Excel dan Word ke Pangkalan Data
Dari Excel dan Word ke SQL I
1. Excel dan Word
4
Dari Excel dan Word ke SQL II
5
Dari Excel dan Word ke SQL III
2. rtf
6
Dari Excel dan Word ke SQL IV
3. html
7
Dari Excel dan Word ke SQL V 4. (Python)
8
Dari Excel dan Word ke SQL VI 5. SQL
9
Jumlah data yang berhasil diambil dari KBBI IV • 92.011 lema, terdiri dari: • • • • • •
41.472 kata dasar 24.607 kata berimbuhan 23.536 gabungan kata 2.033 peribahasa 272 idiom/kata kiasan 91 varian
• 3.473 rujuk silang • 109.005 makna • 27.889 contoh • 789 makna contoh • 2.835 nama ilmiah • 136 rumus kimia 10
Dari Pangkalan Data ke KBBI Daring
Pencarian kata
• dari kata dasar • mencari semua entri dan subentri dari kata ‘kacang’ dengan maknanya
• secara ortografi: • mencari kata ‘mereka’ yang dapat berasal dari kata dasar yang berbeda
• per kategori: • mencari peribahasa dan idiom • mencari kata yang label bahasanya Jw dan ragamnya kl
11
Perbaikan KBBI dengan menggunakan TIK
Penambahan entri baru
• Wordnet • Kata-kata yang digunakan dalam penjelasan makna (> 100 kata)
• Kata berimbuhan
12
Penyuntingan entri
13
Penyuntingan entri
14
Penyuntingan entri
15
Penyuntingan entri
• Pisahkan sebagai entri: • • • • •
dahan dan dahanam ibu dan ibunda preman dan premanisme laser dan laserasi urban dan urbanisasi
16
Penyuntingan entri
• Kesalahan tik entri: • • • • • • •
akalakalan → akal-akalan bunuhbunuhan → bunuh-bunuhan berderetderet → berderet-deret mecuat-cuat → mencuat-cuat penunggangang → penunggangan porak-poranda → porak poranda pemberantakkan → pemberantakan
17
Penyuntingan makna entri • Kata-kata yang ada duplikat dengan makna sama: berbulan, berdukung, berfaedah, memfasilitasi, mengekalkan, mengelantang, mengenang, mengencani, permisalan, menalamkan, berpapan, memperebutkan
18
Penyuntingan makna entri • Kata-kata yang ada duplikat dengan makna berbeda: cangkingan, menggelendot, menetralisasi
19
Penyuntingan makna entri
• Daftar peribahasa yang ada duplikatnya ( > 150 peribahasa)
20
Penyuntingan makna entri
dgn, dg, dng dengan dsb., dsb dan sebagainya mis, msl misalnya
ttg, tt tentang sj sejenis utk untuk 21
Penyuntingan makna entri
22
Penyuntingan makna entri
• Kesalahan tik di penjelasan makna (sekitar 700 kata)
23
Penyuntingan makna entri
• Kata-kata yang penjelasan maknanya kurang (hanya genus tanpa differentia)
• Kata-kata yang penjelasan maknanya hanya berupa nama ilmiah (54 gabungan kata)
24
Penyuntingan makna entri • Entri rujuk (> 330 entri)
25
Penyuntingan makna entri
• Entri rujuk (> 330 entri)
26
Lima puluh genus terbanyak di KBBI IV
Kata orang proses alat tidak bagian perihal tempat menjadikan yang hasil sesuatu kata pohon
Frek. 2703 1858 1595 1526 835 823 806 745 664 656 573 557 547
Kata mempunyai keadaan ikan menjadi hal sudah bersifat membuat tumbuhan tiruan ilmu melakukan fobia
Frek. 526 526 521 513 512 484 471 462 443 413 401 352 350
Kata memberi nama sangat dapat zat penyakit satuan barang bahan kain anak ada uang
Frek. 344 337 327 304 300 297 282 281 277 269 265 249 244
Kata sistem saling daerah bentuk air cara buah memakai perbuatan berhubung jenis
27
Genus di KD
Sumber: Lim et al. 2016 28
Lima puluh kata terbanyak dalam penjelasan makna di KBBI IV
Kata yang dan atau sebagainya dengan untuk dalam di tidak dari pada orang tentang
Frek. 43613 26221 14414 12410 12016 10312 8638 8537 7756 7280 6793 6110 4746
Kata seperti ke dapat tempat sebagai oleh sesuatu air suatu cara menjadi bagian lain
Frek. 3422 3247 3020 2970 2917 2910 2851 2763 2723 2474 2359 2337 2280
Kata atas proses perbuatan alat satu karena kecil digunakan besar secara kepada lebih tanah
Frek. 2262 2207 2202 2131 2041 1873 1828 1803 1770 1697 1662 1653 1535
Kata keadaan mempunyai barang ada dua antara sudah biasanya hidup bahan waktu
29
Dari KBBI Daring ke Antarmuka pengguna