语音识别在 AI 和机器学习中仍然是一个具有挑战性的问题。为了解决这个问题,OpenAI 今天开源了 Whisper,这是一种自动语音识别系统,该公司声称该系统能够“稳健”地转录多种语言,并将这些语言翻译成英语。
无数组织已经开发出功能强大的语音识别系统,这些系统是谷歌、亚马逊和 Meta 等科技巨头的软件和服务的核心。但根据 OpenAI 的说法,Whisper 的不同之处在于它接受了从网络收集的 680,000 小时多语言和“多任务”数据的训练,从而提高了对独特口音、背景噪音和技术术语的识别能力。
“[the Whisper] 模型的主要目标用户是研究当前模型的鲁棒性、泛化、能力、偏差和约束的 AI 研究人员。然而,Whisper 作为开发人员的自动语音识别解决方案也可能非常有用,尤其是对于英语语音识别,”OpenAI 在 Whisper 的 GitHub 存储库中写道,可以从中下载该系统的多个版本。 “[这些模型] 在大约 10 种语言中显示出强大的 ASR 结果。它们可能会表现出额外的能力……如果在某些任务上进行微调,例如语音活动检测、说话人分类或说话人二值化,但在这些领域还没有得到有力的评估。”
Whisper 有其局限性,尤其是在文本预测领域。由于该系统是在大量“嘈杂”数据上进行训练的,OpenAI 警告说 Whisper 可能会在其转录中包含实际上没有说过的单词——可能是因为它既试图预测音频中的下一个单词,又试图转录音频本身.此外,Whisper 在不同语言中的表现并不相同,当涉及到训练数据中没有很好代表的语言的使用者时,它的错误率更高。
不幸的是,最后一点对于语音识别领域来说并不是什么新鲜事。偏见一直困扰着即使是最好的系统,2020 年斯坦福大学的一项研究发现,亚马逊、苹果、谷歌、IBM 和微软的系统对白人用户的错误率比对黑人用户的错误率要低得多——大约 19%。
尽管如此,OpenAI 认为 Whisper 的转录功能被用于改进现有的无障碍工具。
“虽然 Whisper 模型不能用于开箱即用的实时转录,但它们的速度和大小表明其他人可能能够在它们之上构建应用程序,从而实现近乎实时的语音识别和翻译, ”该公司继续在 GitHub 上。 “建立在 Whisper 模型之上的有益应用程序的真正价值表明,这些模型的不同性能可能具有真正的经济影响……[W]e 希望该技术将主要用于有益目的,使自动语音识别技术更容易获得使更多参与者能够构建强大的监控技术或扩大现有的监控工作,因为速度和准确性允许对大量音频通信进行可负担的自动转录和翻译。”
Whisper 的发布并不一定代表 OpenAI 的未来计划。在越来越多地关注 DALL-E 2 和 GPT-3 等商业成果的同时,该公司还在追求几个纯理论研究方向,包括通过观察视频进行学习的 AI 系统。