Liputan6.com, Jakarta - Para peneliti dari University of California San Diego menemukan metode baru untuk membuat suara yang dihasilkan kecerdasan buatan, seperti asisten virtual, menjadi lebih ekspresif.
Dalam makalah bertajuk "Expressive Neural Voice Cloning", mereka menyebut bahwa hasil ini dapat dicapai dengan melatih model machine learning untuk tugas text-to-speech secara minimum sekalipun.
"Kami telah cukup lama meneliti bidang ini," kata Shehzeen Hussain, kandidat PhD di UC San Diego Jacobs School of Engineering dan salah satu penulis utama makalah ini.
Advertisement
"Kami ingin melihat tantangan yang tidak hanya terbatas pada sintesis ujaran, tetapi juga menambahkan makna ekspresif untuk ujaran tersebut," sambungnya.
Baca Juga
Selain asisten virtual untuk ponsel, rumah, dan mobil cerdas, metode ini dapat membantu meningkatkan sulih suara dalam film animasi, terjemahan otomatis ucapan dalam berbagai bahasa, dan lainnya.
Metode ini juga dapat membantu menciptakan antarmuka ujaran yang dipersonalisasi yang memberdayakan individu yang telah kehilangan kemampuan berbicara, mirip dengan suara komputer yang digunakan Stephen Hawking untuk berkomunikasi, tetapi jauh lebih ekspresif.
Beberapa metode saat ini dapat melakukan sintesis ujaran ekspresif untuk penutur tertentu dengan menggunakan beberapa jam data latih.
Sebagian metode lainnya dapat melakukan sintesis ujaran hanya menggunakan beberapa menit data latih dari pembicara yang belum pernah ditemui sebelumnya. Namun, metode ini belum mampu menghasilkan ujaran ekspresif dan hanya dapat menerjemahkan teks ke ujaran.
* Untuk mengetahui kebenaran informasi yang beredar, silakan WhatsApp ke nomor 0811 9787 670 hanya dengan ketik kata kunci yang diinginkan.
Cara Kerja Metode
Sebaliknya, metode yang dikembangkan oleh tim UC San Diego diklaim sebagai satu-satunya metode yang dapat menghasilkan ujaran ekspresif dengan proses dan data latih model secara minimum, bahkan untuk subjek yang belum menjadi bagian dari rangkaian pelatihannya.
Pada praktiknya, para peneliti menandai nada dan ritme ujaran di dalam sampel data latih. Langkah ini memungkinkan sistem replikasi menghasilkan ujaran ekspresif dengan pelatihan secara minimum, bahkan untuk suara yang belum pernah ditemui sebelumnya.
"Kami mendemonstrasikan bahwa model yang kami usulkan dapat membuat ekspresi ujaran baru, mengeluarkan emosi, bernyanyi, atau meniru gaya ujaran referensi yang diberikan [di dalam data latih]," kata para peneliti.
Advertisement
Masih Perlu Peningkatan
Metode terbaru ini dapat mempelajari ujaran langsung dari teks; merekonstruksi sampel ujaran dari penutur target; dan mentransfer nada dan ritme bicara dari penutur ekspresif yang berbeda ke dalam ujaran hasil replikasi untuk penutur target.
Saat ini para metode ini sendiri masih perlu ditingkatkan karena data latih ini memiliki bias terhadap penutur bahasa Inggris dan perlu upaya lebih saat berhadapan dengan penutur ujaran dengan aksen kuat.
Infografis Era Teknologi 5G di Indonesia
Advertisement