Jurnal Teknik Informatika Vol. 1, 5 September 2013
1
Aplikasi Speech To Text Pada Animasi Robot Pintar Berbasis Android Titik Porwasih1, Satria Perdana Arifin, S.T., M.T.I2 & Mardhiah Fadhli, S.T3 1
[email protected],
[email protected],
[email protected]
Abstrak Smartphone Android menjadi salah satu teknologi yang sangat diminati. Hal ini disebabkan karena smartphone Android bersifat open-source sehingga banyak developer yang mengembangkan aplikasiaplikasi pada Android. Teknologi speech to text memberikan kemudahan bagi pengguna untuk berinteraksi dengan suatu perangkat. Proyek akhir ini membahas tentang penerapan teknologi speech to text pada Android guna mengendalikan objek robot 3D. Robot 3D akan melakukan gerakan sesuai dengan instruksi suara dari user. Input suara dari user akan disimpan sementara pada device dalam format .wav. File suara tersebut dikirimkan ke server AT&T WATSON untuk diolah menjadi sebuah teks. Hasil teks dikirimkan kembali dari server ke device Android. Kemudian dilakukan pencocokan hasil teks dengan kata-kata gerak yang tersimpan di Android menggunakan algoritma levenshtein distance. Setelah itu robot akan melakukan gerakan sesuai dengan hasil pencocokan teks misalnya gerakan melompat (jump), menari (dance), dan lain-lain. Pada aplikasi ini telah dilakukan beberapa pengujian diantaranya pengujian tingkat noise. Hasilnya aplikasi ini memiliki keakuratan kata sebesar 76% jika digunakan pada lingkungan sedikit noise. Sedangkan pada pengujian pengucapan bahasa Inggris, persentase keakuratan kata tertinggi didapatkan dari pengucapan yang dilakukan oleh pengajar yaitu sebesar 91,25%. Ideal aplikasi ini digunakan pada kondisi sedikit noise (0-50db) dengan pengguna minimal biasa berbahasa Inggris. Kata kunci: Android, speech to text, objek 3D
Abstract Android smartphone is one of technology that in high demand today. This is because the android smartphone is an open-source so many developers develop applications on Android. Speech to text technology provides easiness for users to interact with a device. This final project is about the application of speech technology to text in Android to control 3D robotic object. 3D robot will perform movements in accordance with the instructions of the voice of the user. Voice input from the user will be temporarily stored on the device in the format .wav. The voice file is sent to the AT & T WATSON server to be processed into a text. The text is sent back from the server to the Android device. Then the result text will be matched with the words motion stored in Android using levenshtein distance algorithm. Then the robot will move according to the matching results of text such as jump, dance, and others. This application has been tested by the noise level testing. The result is this application has accuraty of word as 76% in case used in little noise environment. Then at the English pronunciation testing, the highest percentage of the accuraty of words is obtained from instructors. Ideally this application is used in a little noise condition (0-50db) by can at least speak English. Keywords: Android, speech to text, objek 3D
1
Pendahuluan
Pada saat ini, perkembangan teknologi informasi berperan penting dalam berbagai sektor kehidupan manusia. Teknologi informasi yang terus berkembang sampai saat ini adalah telepon seluler. Jenis telepon seluler yang sangat berkembang adalah smartphone Android. Android adalah sistem operasi untuk smartphone berbasis Linux. Salah satu kelebihan Android dibanding sistem operasi smartphone lainnya adalah Android bersifat open source sehingga orang-orang dapat menyesuaikan fitur-fitur yang belum ada di sistem operasi Android sesuai dengan keinginan. Salah satu fitur yang terdapat pada
2
Titik Porwasih
Android adalah speech to text. Speech to text adalah suatu program yang dapat melakukan konversi dari input suara menjadi text. Text tersebut dapat digunakan sebagai penghubung untuk menampilkan animasi. Animasi adalah proses penciptaan efek gerak atau efek perubahan bentuk yang terjadi selama beberapa waktu. Salah satu jenis animasi adalah animasi 3D. Dengan animasi 3D maka objek yang dibuat semakin hidup dan nyata. Dengan adanya fitur speech to text pada smartphone android, maka penulis merancang sebuah perangkat lunak yang dapat dimanfaatkan sebagai media penghubung untuk menampilkan animasi 3D berbentuk robot. Adapun tujuan yang ingin dicapai dalam pembuatan proyek akhir ini antara lain: 1. Membuat objek 3D berupa robot yang dapat ditampilkan di smartphone android. 2. Membuat smartphone android dapat mengenal suara sebagai sebuah instruksi. 3. Membuat objek 3D yaitu robot pada smartphone android dapat melakukan instruksi sesuai dengan perintah suara pengguna. Sedangkan manfaat dari penulisan makalah proyek akhir ini adalah untuk mengenalkan teknologi speech to text sebagai pengontrol animasi 3D pada Android. Selain itu aplikasi ini bermanfaat untuk melatih pengucapan bahasa Inggris.
2 2.1
Tinjauan Pustaka Android
Amiral (2010) menyatakan bahwa “Android adalah kumpulan perangkat lunak yang ditujukan bagi perangkat bergerak mencakup sistem operasi, middleware, dan aplikasi kunci” [1]. Android merupakan sistem operasi untuk mobile device yang awalnya dikembangkan oleh Android Inc. Perusahaan ini kemudian dibeli oleh Google pada tahun 2005.
2.2
Speech to Text
Speech to Text merupakan teknologi yang dikembangkan dari pengenalan ucapan. Pengenalan ucapan atau lebih tepatnya disebut Automatic Speech Recognition (ASR). Sonya Marietha (2012) menyatakan bahwa “Automatic speech recognition is an algorithmic process to transform the voice input into a sequence of words that correspond to its inputs.” Autometic Speech Recognition (ASR) atau yang sering disebut dengan Speech to text (STT) [2]. Adapun cara kerja speech to text, adalah: Input speech to text berupa suara, setelah suara ditangkap lalu akan diproses untuk memisahkan antara suara pembicara dengan suara di sekitarnya. Kemudian setelah di pisahkan suara akan di proses untuk mencari fonem mana yang sesuai dengan yang di ucapkan oleh pembicara. Setelah itu akan dicari kata yang sesuai dengan fonem-fonem tersebut.
2.3
AT&T Watson Speech
Teknologi AT & T Watson SM speech recognition adalah platform layanan bicara dan telah menjadi layanan pembicaraan lanjutan di pasar selama beberapa dekade. Hal ini mencerminkan penelitian dan pengembangan dalam teknologi speech yang telah menyebabkan lebih dari 600 paten AS dan aplikasi paten tambahan. AT & T Watson untuk pengembang pihak ketiga melalui API speech pada bulan Juli 2012. The Speech API dirilis dengan tujuh konteks yang berbeda untuk pengembang: pencarian Web, pencarian bisnis, pesan suara ke teks, SMS, tanya jawab, TV dan generik. The Speech API juga menawarkan tambahan baru, seperti konteks pidato baru yang disetel untuk game dan aplikasi media sosial. Ia juga menawarkan update dengan konteks generik, memungkinkan text-to-speech yang mendukung kedua bahasa Inggris dan Spanyol [3].
Jurnal Teknik Informatika Vol. 1, 5 September 2013
2.4
3
Algoritma Leensthein DIstance
Willy goenawan (2005) menyatakan bahwa “Algoritma Levensthein Distance digunakan untuk mencari kecocokan antara dua string. Dalam proses perbandingannya, string kedua dimanipulasi sehingga pada akhirnya serupa dengan string pertama. Dalam proses perubahan string tersebut dibuat table dua dimensi dengan baris sesuai dengan panjang string terpanjang dan jumlah kolom sebanyak panjang string terpendek” [4]. Berikut ini contoh dua string yang dibandingkan: KORUPSI dan KOLUSI langkah-langkah sebagai berikut: 1. Elemen matriks [0,0] akan diisi dengan nilai 0 2. Elemen matriks [x,0] akan diisi dengan nilai matriks [x-1,0]+1. 3. Elemen matriks [0,x] akan diisikan nilai matriks[0,x-1]+1 4. Elemen lainnya (matriks[X,Y])diisi dengan urutan langkah di bawah ini: a. Jika karakter ke-X pada string ke-1 memiliki kesamaan dengan karakter ke-Y pada string ke-2 maka nilai matriks[X-1,Y-1] akan dianggap ditambahkan 1 dari nilai sebelumnya. b. Bandingkan 3 elemen matriks pada posisi matriks[X-1,Y-1],matriks[X,Y-1], dan matriks[X-1,Y1] untuk pencarian nilai minimum di antara ketiganya. Elemen dengan nilai terkecil akan dimasukkan nilainya ke dalam matriks[X,Y]. c. Ulangi langkah 4 sampai semua elemen tabel terisi. Berikut ini adalah algoritma Edit Distance dalam notasi bahasa Pascal. Tabel 2.1 Tabel Dua Dimensi Algoritma Levenshtein Distance
K
0 1
K 1 0
O 2 1
L 3 2
U 4 3
S 5 4
I 6 5
O R U P S I
2 3 4 5 6 7
1 2 3 4 5 6
0 1 2 3 4 5
1 1 2 3 4 5
2 2 1 2 3 4
3 3 2 2 2 3
4 4 3 3 3 2
Untuk mengecek keabsahan suatu teks digunakan persentase kemiripan yang dapat dihitung dengan rumus : D 2 P =1= 1=0,72=72% T 7 Keterangan: P = Persentase kemiripan D = Hasil keluaran algoritma T = Jumlah karakter terpanjang antara 2 masukan
2.5
Animasi 3Dimensi
Oky Dwi Nurhayati (2010) menyatakan bahwa “Animasi adalah proses penciptaan efek gerak atau efek perubahan bentuk yang terjadi selama beberapa waktu. Animasi bisa berupa gerakan sebuah objek dari tempat yang satu ketempat yang lain, perubahaan warna, atau perubahan bentuk” [5].
2.6
Blender
Pada tahun 1988 Ton Roosendaal mendanai perusahaan yang bergerak dibidang animasi yang dinamakan NeoGeo. NeoGeo berkembang pesat sehingga menjadi perusahaan animasi terbesar di Belnada dan salah satu perusahaan animasi terdepan di Eropa. Pada tahun 1995 muncullah sebuah software yang diberi nama Blender. Blender adalah perangkat lunak untuk grafis 3 dimensi yang bersifat opensource [6]. Blender lebih lanjut disebutkan bahwa dapat digunakan untuk membuat animasi 3 dimensi.
4
Titik Porwasih
2.7
Unity 3D
Pada tahun 1988 Ton Roosendaal mendanai perusahaan yang bergerak dibidang animasi yang dinamakan NeoGeo. NeoGeo berkembang pesat sehingga menjadi perusahaan animasi terbesar di Belnada dan salah satu perusahaan animasi terdepan di Eropa. Pada tahun 1995 muncullah sebuah software yang diberi nama Blender. Blender adalah perangkat lunak untuk grafis 3 dimensi yang bersifat opensource [6]. Blender lebih lanjut disebutkan bahwa dapat digunakan untuk membuat animasi 3 dimensi.
2.8
Kebisingan
Alex justian (2012) menyatakan bahwa, “kebisingan biasanya didefinisikan sebagai suara atau suara pada amplitude tertentu yang dapat menyebabkan kejengkelan atau mengganggu komunikasi” [8]. Suara dapat diukur secara objektif sedangkan kebisingan merupakan fenomena yang subjektif(Bridger, 2005). Sedangkan menurut Burrow (1960) kebisingan merupakan suatu stimulus pendengaran yang tidak memiliki hubungan informasi apapun dengan keberadaan atau penyelesaian tugas (Sanders dan McCormick,1993). Kebisingan Lingkungan dapat dideskripsikan oleh beberapa pengukuran sederhana. Semua pengukuran menganggap kandungan frekuensi dari suara, tingkat tekanan suara secara keseluruhan dan variasi dari tingkatan –tingkatan ini terhadap waktu
Lingkungan
Banyak noise
Sedikit noise
2.9
Tabel 2.2 Skala Intesitas Kebisingan Intensitas Skala Sumber Kebisingan (dB) Kerusakan alat 120 Batas dengar tertinggi pendengaran Menyebabkan 100-110 Halilintar, meriam, mesin uap tuli Hiruk pikuk jalan raya, perusahaan sangat Sangat hiruk 80-90 gaduh, peluit polisi Kantor bising, jalanan pada umumnya, Kuat 60-70 radio, perusahaan Kantor pada umumnya, percakapan kuat, Sedang 40-50 radio perlahan Rumah Tenang, Kantor perorang, Tenang 20-30 Auditorium, Percakapan Sangat tenang 10-20 Suara daun berbisik
Skala Likert
Nurlis (2007) menyatakan bahwa “Skala likert merupakan metode yang mengukur sikap dengan menyatakan setuju atau ketidak setujuan terhadap subyek, objek atau kejadian tertentu”[9]. Metode pengukuran yang paling sering digunakan ini dikembangkan oleh Rensis Likert sehinnga dikenal dengan nama Skala Linkert. Skala Linkert umumnya menggunakan lima angka penilaian yaitu: (1) sangat tidak setuju, (2) tidak setuju, (3) netral, (4) setuju, dan (5) sangat setuju. Urutan setuju atau tidak setuju dapat dibalik mulai dari yang sangat setuju samapai sangat tidak setuju.
Jurnal Teknik Informatika Vol. 1, 5 September 2013
3 3.1
5
Perancangan Arsitektur Aplikasi AT&T WATSON
Pencocokan kata yang tersedia dengan kata hasil dari AT&T WATSON
Tampil animasi
Pencocokan kata dengan animasi yang tersedia
Recording aaa.wav
Smartphone
Gambar 3. 1 Arsitektur Aplikasi Ketika memulai aplikasi ini, user diberikan menu utama yaitu berupa button speak yang digunakan untuk menginputkan suara, kemudian berikan input suara berupa intruksi yang telah disediakan seperti applause, dance, left foot, left hand, right foot, right hand, jump dan see you. Hasilinput suara disimpan pada smartphone dengan nama aaa.wav,hasil rekaman aaa.wav dikirim ke server AT&T WATSON guna dilakukan proses speech to text. Teks tersebut dikirim kembali ke smartphone untuk dilakukan algoritma levenshtein distance yang berguna mencari kata yang sesuai atau mendekati dari kata-kata yang tersedia. Hasil kata yang didapat diubah menjadi sebuah instruksi untuk menampilkan animasi.
4 4.1
Hasil dan Pembahasan Tampilan Aplikasi Berikut adalah tampilan screenshoot pada aplikasi ini:
2
5
4
3
1 6 Gambar 4. 2 Tampilan Aplikasi
6
Titik Porwasih Pada aplikasi ini terdapat beberapa tombol seperti: No 1
Tabel 4.1 Keterangan Gambar Tombol Gambar Tombol Ket Tombol record, digunakan untuk melakukan proses input suara. Tombol help, digunakan untuk menampilkan menu
2
help yang berisi cara penggunaan aplikasi. Tombol kiri, digunakan untuk melihat sisi kiri objek.
3 Tombol kanan, digunakan untuk melihat sisi kanan 4
objek. Tombol atas, digunakan untuk melihat sisi atas objek.
5 Tombol exit, digunakan untuk keluar dari aplikasi. 6
Ketika pengguna menekan tombol record, maka pengguna diminta untuk melakukan proses input suara, misalnya pengguna mengucapkan kata “see you”. Berikut tampilan proses input suara
Gambar 4. 3 Tampilan Proses Recording Setelah mengucapkan kata “see you” , maka akan tampil animasi sesuai dengan input suara pengguna serta nilai ketepatan pengucapan bahasa Inggris. Berikut tampilan animasi “see you”:
Jurnal Teknik Informatika Vol. 1, 5 September 2013
7
Gambar 4. 4 Tampilan Animasi Selain itu juga terdapat menu help, pengguna dapat melihat isi menu dengan cara tekan tombol “helo” maka akan muncul tampilan menu help sebagai berikut:
Gambar 4. 4 Tampilan Help Pengujian pada aplikasi ini dilakukan pada dua kondisi lingkungan yang berbeda yaitu lingkungan yang sedikit noise dan banyak noise. Untuk itu dibuat range db untuk membedakan lingkungan yang sedikit noise dan banyak noise. Lingkungan sedikit noise memiliki nilai antara 0-50 db seperti pada lingkungan rumah gaduh, kantor pada umumnya, percakapan kuat, radio perlahan dan lainnya. Sedangkan banyak noise memiliki nilai antara 60-120db seperti pada kantor bising, jalanan pada umumnya, radio, perusahaan dan lainnya. Berdasarkan hasil pengujian dari 30 responden maka didapat grafik untuk mengambarkan persentase keakuratan kata berdasarkan dua kondisi lingkungan banyak noise dan sedikit noise. Adapun grafiknya sebagai berikut:
8
Titik Porwasih
Pengujian Tingkat Noise Applause Right foot
90 %
Dance Right hand
86% 67% 76% 63% 67%
90% 96%
Sedikit noise (0-50db)
left foot Jump
73% 73%
Left hand Seeyou
50%53% 50% 56%
67% 80%
Banyak Noise (60-120db)
Gambar 4. 5 Grafik Pengujian Tingkat Noise Berdasarkan hasil pengujian yang telah dilakukan, dapat diambil kesimpulan bahwa semakin rendah tingkat kebisingan (noise), maka tingkat keakuratan kata yang diterima oleh aplikasi akan semakin tinggi yaitu sebesar 57,92%. Begitu juga sebaliknya, semakin tinggi tingkat kebisingan (noise), maka tingkat keakuratan kata yang diterima oleh aplikasi akan semakin rendah yaitu 21,66%. Didasarkan pada kesimpulan ini, maka untuk keakuratan kata yang diucapkan dengan kata yang diterima oleh sistem, maka sebaiknya aplikasi digunakan pada ruangan dengan tingkat kebisingan (noise) antara 0-50db. Untuk lebih jelas dapat dilihat di Tabel 4.1: Tabel 4. 1 Pengujian Tingkat Noise Gerakkan animasi
Keakuratan Kata (%)
Keakuratan Kata (%)
Sedikit noise (0-50db)
Banyak noise (60-120db)
Applause
90
73
Dance
86
73
Left foot
67
50
Left hand
76
53
Right foot
63
50
Right hand
67
56
Jump
90
67
Seeyou Rata-rata Keakuratan kata
96
80
76
62.75
Selanjutnya adalah pengujian tingkat Bahasa Inggris, pengujian dilakukan pada 30 responden yang dibagi menjadi 2 golongan berdasarkan pekerjaan yaitu mahasiswa dan pengajar. Pengujian ini dilakukan bertujuan untuk mengetahui sasaran pengguna aplikasi yang tepat. Adapun grafiknya sebagai berikut:
Jurnal Teknik Informatika Vol. 1, 5 September 2013
9
Pengujian Tingkat Pengucapan Bahasa Inggris
85% 80%
Applause
Dance
Left foot
Left hand
Right foot
Right hand
Jump
Seeyou
60% 70% 55% 60%
85% 95%
100%100% 100%100% 80% 90% 80% 80%
Mahasiswa
Pengajar
Gambar 4. 6 Grafik Pengujian Tingkat Pengucapan Bahasa Inggris
Tabel 4. 2 Pengujian Tingkat Pengucapan Bahasa Inggris Gerakkan animasi
Keakuratan Kata (%)
Keakuratan Kata (%)
Mahasiswa
Pengajar
Applause
85
100
Dance
80
100
Left foot
60
80
Left hand
70
90
Right foot
55
80
Right hand
60
80
Jump
85
100
Seeyou Rata-ata keakuratan kata
95
100
73.7
91.25
Berdasarkan Tabel 4.2 rata-rata persentase keakuratan kata mahasiswa sebesar 73,7%, dan pengajar sebesar 91,25 %, sehingga dapat diambil kesimpulan bahwa persentase tingkat pengucapan bahasa inggris yang tertinggi adalah pada golongan pengajar yaitu 91,25%, maka dari itu aplikasi ini cocok digunakan untuk pengajar.
5
Kesimpulan dan Saran Setelah dilakukan pengujian dan analisa didapat kesimpulan sebagai berikut: Aplikasi Speech to Text pada Animasi Robot Pintar Berbasis Android menampilkan objek 3D pada smartphone Android. Objek 3D tersebut mampu melakukan gerakan sesuai dengan perintah user berupa suara. 2. Kondisi tingkat lingkungan (noise) mempengaruhi keakuratan kata. Lingkungan yang sedikit noise memiliki keakuratan kata sebesar 57,92% sedangkan lingkungan yang banyak noise memiliki keakuratan kata sebesar 21,66%. Maka aplikasi ini sebaiknya digunakan pada kondisi lingkungan yang sedikit noise. 3. Penggunaan kata yang sama sangat berpengaruh pada keakuratan kata seperti penggunaan kata left foot dan left hand. Maka dari itu gunakan kata yang berbeda, seperti seeyou dan dance. 1.
10
Titik Porwasih 4. 5.
Aplikasi ini digunakan untuk mahasiswa dengan persentase keakuratan kata sebesar 70%. Berdasarkan hasil pengujian kuisioner, aplikasi ini dapat membantu pengguna dalam belajar pengucapan bahasa Inggris, dengan nilai perskalaan sangat setuju sebesar 91%.
Dari proyek akhir Aplikasi Speech To Text Pada Animasi Robot Pintar Berbasis Android ini dapat diajukan beberapa saran yang dapat digunakan sebagai bahan pertimbangan untuk pengembangan aplikasi yang jauh lebih sempurna lagi pada masa mendatang. Adapun saran yang dapat diajukan adalah sebagai berikut: 1. Aplikasi Android menggunakan suara sebagai media input juga dapat dikembangkan sehingga mempu membantu user dengan keterbatasan fisik untuk dapat berinteraksi dengan smartphone Android. 2. Pengembangan aplikasi sejenis menggunakan platform lain seperti IOS, Windows Phone, Blackberry dan lain-lain.
6
Daftar Pustaka [1]. Daftar Pustaka Amiral, Muhammad. (2010). Aplikasi Pengingat Shalat dan Arah Kiblat Menggunakan Global Positioning System (GPS) Berbasis Android 1.6. Institut Teknologi Indonesia. [2]. Marietha, Sonya (2012). SMSsuara Application with Automatic Speech Recognition and Text to Speech on Mobile Phone. Institut Teknologi Bandung. [3]. AT&T. (t.t) diambil pada tanggal 8 Juni 2013. http://att.com. [4]. Goenawan, Willy (2005). Penerapan Algoritma Edit Distance Pada Pendeteksi Praktik Plagiat. Bandung: Institut Teknologi Bandung. [5]. Nurhayati, Oky. (2010). Pembuatan animasi dasar. Universitas Diponegoro. [6]. Blender. (t.t) Diambil pada tanggal 26 November 2012 http://blender.org [7]. Unity3D. (t.t) Diambil pada tanggal 5 juni 2013 http://unity3D.com [8]. Justian, Alex. (2012). Analisis Pengaruh Kebisingan Terhadap Performa Siswa Sekolah Dasar di Ruang Kelas. Jakarta : Universitas Indonesia. [9]. Nurlis (2007).Metodologi Penelitian.Universitas Mercubuana.