10 月 19 日,扎克伯格在 Facebook 上贴出一段英语与闽南语 AI 翻译对话的视频,展示了 Meta 开源的首个 AI 语音翻译系统,可以实现闽南话和英语语音互译。
现在主流的语音翻译系统都依靠语音或文本转录,并通过交叉比对或深度学习的方式进行翻译。闽南语没有标准文字,无法进行文本转录。且同时掌握英语和闽南语的翻译人员较少,收集模型和标注训练数据也相对困难。
为开发这个只有语音的翻译系统,Meta 的 AI 研究团队将普通话作为中间语言。首先将英语(或闽南语)语音翻译成普通话文本,然后再翻译成闽南语(或英语)并添加到训练数据中。同时使用预先训练好的语音编码器,通过编码的方式替代闽南语的文本,再将编码文本与相似语义的英语语音和文本配对,再从文本来合成英文语音。
目前这个翻译系统还在推进中,一次只能翻译一个完整的句子。研究人员基于闽南语语料库 Taiwanese Across Taiwan,创建了闽英双向语音到语音的开源翻译基准数据集。(实习生曾兴)