我是斜杠青年,一个热爱前沿科技的“杂食性”学者!


DALL-E和GPT背后的公司已经制作了名为Whisper的自动语音识别系统,并允许开发人员和研究人员使用它。



OpenAI是图像生成和模因生成程序DALL-E以及强大的文本自动完成引擎GPT-3背后的公司,该公司推出了一个新的开源神经网络,旨在将音频转录成书面文本(通过TechCrunch)。它被称为Whisper,该公司表示,它“接近人类水平的英语语音识别的鲁棒性和准确性”,并且还可以自动识别、转录和翻译西班牙语、意大利语和日语等其他语言。

事实证明,使用它比你想象的还要容易;我已经在我的计算机上设置了Python和各种开发人员工具,因此安装Whisper就像运行单个终端命令一样简单。在15分钟内,我能够使用Whisper转录我录制的测试音频剪辑。对于一个不懂技术,也尚未设置Python、FFmpeg、Xcode和Homebrew的人来说,这可能需要近一两个小时(甚至更长时间)。不过,已经有人在努力使这个过程更简单、更方便用户,我们稍后再讨论。


虽然OpenAI肯定认为这个用例是一种可能性,但很明显,该公司主要针对此版本以研究人员和开发人员为目标。在宣布Whisper的博客文章中,该团队表示,其代码可以“作为构建有用应用程序和进一步研究强大的语音处理的基础”,并希望“Whisper的高精度和易用性将允许开发人员为更广泛的应用程序添加语音接口。”然而,这种方法仍然值得注意——该公司对其最受欢迎的机器学习项目(如DALL-E或GPT-3)的机会有限,理由是希望“更多地了解现实世界的使用,并继续迭代我们的安全系统”。


还有一个事实是,为大多数人安装Whisper并不完全是一个用户友好的过程。然而,记者Peter Sterne与GitHub开发人员倡导者Christina Warren合作,试图解决这个问题,宣布他们正在根据Whisper的机器学习模型创建一个“免费、安全和易于使用的记者转录应用程序”。

我将Whisper生成的转录与Otter.ai和Trint为同一文件发布的内容进行了比较,我想说它相对可比。所有这些都有足够的错误,你永远不会在不仔细检查音频的情况下将引用的内容复制并粘贴到文章中(当然,无论如何,这是最佳做法,无论你使用什么服务)。但Whisper的版本绝对可以为你完成这项工作;你可以搜索它以找到我需要的部分,然后手动仔细检查。理论上,Stage Whisper的性能应该完全相同,因为它将使用相同的模型,只是周围包裹着GUI。

Sterne承认,苹果和谷歌的技术可能会在几年内使Stage Whisper过时——Pixel的录音机应用程序多年来一直能够进行离线转录,该功能的一个版本开始在一些其他Android设备上推出,苹果在iOS中内置了离线听写(尽管目前没有一种好方法可以真正用它转录音频文件)。“但我们不能等那么久。”


需要澄清的是,无论使用起来多么简单,Whisper可能不会完全过时Otter.ai和Trint等基于云的服务。首先,OpenAI的模型缺少传统转录服务的最大功能之一:能够标记谁说了什么。Stage Whisper可能不支持此功能:“他们没有开发自己的机器学习模型。”

云只是别人的电脑——这可能意味着它要快得多


虽然你获得了本地处理的好处,但你也获得了缺点。主要问题是,你的笔记本电脑几乎肯定比专业转录服务使用的计算机强大得多。例如,我将长达24分钟的音频输入了Whisper,运行在我的M1 MacBook Pro上;转录整个文件大约需要52分钟。水獭在不到八分钟的时间里吐出了成绩单。

然而,OpenAI的技术确实有一个很大的优势——价格。如果你专业使用基于云的订阅服务,几乎肯定会花费用(Otter有一个免费层,但即将到来的更改将使其对经常转录事物的人来说不那么有用),Microsoft Word或Pixel等平台内置的转录功能要求你支付单独的软件或硬件费用。Stage Whisper——以及Whisper本身——是免费的,可以在你已有的计算机上运行。

同样,OpenAI对Whisper的希望比它成为安全转录应用程序的基础更高——我对研究人员最终使用它做什么或通过查看机器学习模型将学到什么感到非常兴奋,该模型是在“从网络收集的68万小时的多语言和多任务监督数据”上接受培训的。但事实上,它今天也恰好有真正的实际用途,这使它更加令人兴奋。

了解最新前沿科技,关注我就是你最好的选择!