Liputan6.com, Jakarta - Meta memperkenalkan model kecerdasan buatan baru, SeamlessM4T, yang memungkinkan seseorang untuk berkomunikasi dengan mudah lewat ucapan atau teks, dalam berbagai bahasa.
M4T sendiri berarti Massively Multilingual and Multimodal Machine Translation.
Baca Juga
Mengutip laman resmi Meta, Kamis (24/8/2023), SeamlessM4T mendukung pengenalan ucapan untuk hampir 100 bahasa, serta terjemahan ucapan ke teks (speech-to-text) untuk hampir 100 bahasa input dan output.
Advertisement
AI ini juga mendukung terjemahan ucapan ke ucapan (speech-to-speech) dengan hampir 100 bahasa masukan dan 36 bahasa keluaran, serta terjemahan text-to-text untuk hampir 100 bahasa.
Kemampuan lainnya adalah terjemahan teks ke ucapan (text-to-speech) yang mendukung hampir 100 bahasa input dan 35 bahasa output.
"Dibandingkan dengan pendekatan yang menggunakan model terpisah, pendekatan sistem tunggal SeamlessM4T mengurangi kesalahan dan penundaan, meningkatkan efisiensi dan kualitas proses penerjemahan," kata Meta.
"Hal ini memungkinkan orang yang berbicara dengan bahasa yang berbeda, untuk berkomunikasi satu sama lain secara lebih efektif," imbuh induk Facebook itu.
Model penerjemah artificial intelligence (AI) ini dirilis secara publik di bawah lisensi penelitian, sehingga memungkinkan peneliti dan pengembang mengembangkan proyek tersebut.
Dikutip dari The Verge, SeamlessM4T dibangun di atas model terjemahan Meta yang sebelumnya yaitu No Language Left Behind, model terjemahan mesin text-to-text, yang mendukung 200 bahasa dan dirilis di 2022.
Model AI ini mengembangkan SpeechMatrix, kumpulan data untuk terjemahan ucapan-ke-ucapan multibahasa dan Massively Multilingual Speech untuk pengenalan ucapan.
Identifikasi Kata-Kata Kasar
Untuk membangun SeamlessM4T, Meta juga telah mendesain ulang perangkat pemodelan rangkaian Fairseq untuk membuat model yang lebih ringan dan menangani lebih banyak informasi.
Selain itu, SeamlessM4T juga akan dibangun dengan sistem yang mengidentifikasi kata-kata toxic atau sensitif.
Meta mendefinisikan kata-kata toxic dengan contoh seperti "terjemahan yang dapat memicu kebencian, kekerasan, kata-kata kotor, atau pelecehan."
Tujuannya adalah untuk mendeteksi saat output terjemahan mengeluarkan kata-kata toxic, yang tidak ada dalam materi aslinya.
"Kami menyaring toksisitas yang tidak seimbang dalam data pelatihan. Jika masukan atau keluaran mengandung jumlah toksisitas yang berbeda, kami menghapus rangkaian pelatihan tersebut," kata Meta.
Para peneliti juga mencoba membersihkan kumpulan data yang salah menerjemahkan beberapa kata-kata kotor, sehingga dapat mendeteksi dengan lebih akurat kapan data tersebut digunakan.
Meta juga mengklaim model AI mereka ini bisa mengenali bias gender dalam bahasa, serta dapat mengukur bias gender dalam sebuah terjemahan.
Advertisement
Meta Perkenalkan AI AudioCraft
Sebelumnya, Meta meluncurkan AudioCraft, sebuah alat berbasis AI open-source, yang memudahkan pengguna membuat musik hanya dengan deskripsi teks.
AudioCraft mencakup tiga model AI yaitu MusicGen, AudioGen, dan EnCodec. MusicGen dilatih dengan musik milik Meta dan berlisensi khusus, untuk menghasilkan musik dari prompt teks.
Sementara AudioGen, yang dilatih dengan efek suara publik, menghasilkan audio juga dari prompt teks. Mengutip blog resmi Meta, Sabtu (5/8/2023), EnCodec memungkinkan pembuatan musik berkualitas tinggi dengan artefak yang lebih sedikit.
Meta juga merilis model AudioGen terlatih mereka, yang memungkinkan pengguna menghasilkan suara lingkungan dan efek suara seperti gonggongan anjing, klakson mobil, atau langkah kaki di lantai kayu.
Meta pun mengumumkan mereka membagikan seluruh bobot dan kode model AudioCraft.
"Kami membuat model open-source ini, memberi peneliti dan praktisi akses sehingga mereka dapat melatih model mereka sendiri dengan kumpulan data mereka sendiri untuk pertama kalinya," tulis Meta.
"Dan membantu memajukan bidang audio dan musik yang dihasilkan AI," imbuh perusahaan induk Facebook itu. Menurut Meta, sektor audio "sedikit tertinggal" soal AI generatif bila dibandingkan dengan gambar, video, maupun teks.
Â
Dapat Hasilkan Audio Berkualitas Tinggi
Perusahaan menyebut, ada pekerjaan-pekerjaan yang sangat rumit dan tidak terlalu terbuka, sehingga orang tidak dapat dengan mudah memainkannya.
"Menghasilkan audio fidelitas tinggi dalam bentuk apa pun memerlukan pemodelan sinyal dan pola yang kompleks pada berbagai skala," kata induk Facebook itu.
"Musik bisa dibilang merupakan jenis audio yang paling menantang untuk dihasilkan karena terdiri dari pola lokal dan jarak jauh, dari rangkaian nada hingga struktur musik global dengan berbagai instrumen," kata Meta.
Meta mengklaim, rangkaian model AudioCraft dapat menghasilkan audio berkualitas tinggi dengan konsistensi jangka panjang, serta dapat dengan mudah digunakan.
"AudioCraft berfungsi untuk musik, suara, kompresi, dan pembuatan — semuanya di tempat yang sama," kata Meta.
"Memiliki fondasi open source yang solid akan mendorong inovasi dan melengkapi cara kami memproduksi dan mendengarkan audio dan musik di masa mendatang," tulis mereka lebih lanjut.
Soal hak cipta, Meta mengklaim bahwa model yang sudah dilatih sebelumnya semuanya memakai materi publik atau yang sudah dimiliki oleh perusahaan.
Advertisement