OpenAI是图像生成和迷因生成程序DALL-E和强大的文本自动完成引擎GPT-3的幕后公司,它推出了一种新的开源神经网络,旨在将音频转录成书面文本(通过 TechCrunch).它被称为Whisper,该公司表示,它“在英语语音识别方面接近人类水平的鲁棒性和准确性”,它还可以自动识别、转录和翻译其他语言,如西班牙语、意大利语和日语。

作为一个经常记录和转录采访的人,我立即被这个消息所炒作——我想我可以编写自己的应用程序,从我的电脑上安全地转录音频。虽然Otter.ai和Trint等基于云的服务适用于大多数情况,并且相对安全,但在一些采访中,如果音频文件不在互联网上,我或我的消息来源会感到更舒服。

使用它比我想象的还要容易;我已经在电脑上安装了Python和各种开发工具,所以安装Whisper就像运行一个终端命令一样简单。在15分钟内,我能够使用Whisper转录我录制的测试音频剪辑。对于相对精通技术但还没有安装Python、FFmpeg、Xcode和Homebrew的人来说,这可能需要将近一两个小时。不过,已经有人在努力使这个过程变得更加简单和用户友好,我们马上就会谈到这一点。

Command-line apps obviously aren’t for everyone, but for something that’s doing a relatively complex job, Whisper’s very easy to use.
Command-line apps obviously aren’t for everyone, but for something that’s doing a relatively complex job, Whisper’s very easy to use.
命令行应用程序显然不适合所有人,但对于一些相对复杂的工作,Whisper非常容易使用。

虽然OpenAI肯定认为这种用例是可能的,但很明显该公司的这个版本主要针对研究人员和开发人员。在宣布Whisper的博客帖子中,该团队表示,其代码可以“作为构建有用应用程序和进一步研究强大语音处理的基础”,并希望“Whisper的高准确性和易用性将允许开发人员为更广泛的应用程序添加语音界面。”然而,这种方法仍然值得注意——该公司限制访问其最受欢迎的机器学习项目,如DALL-E或GPT-3,理由是希望“了解更多关于现实世界的使用,并继续迭代我们的安全系统。”

Image showing a text file with the transcribed lyrics for Yung Gravy’s song “Betty (Get Money).” The transcription contains many inaccuracies.
Image showing a text file with the transcribed lyrics for Yung Gravy’s song “Betty (Get Money).” The transcription contains many inaccuracies.
如果你用Whisper生成的文本文件来写文章,它们也不容易阅读。

还有一个事实是,对大多数人来说,安装Whisper并不是一个用户友好的过程。然而,记者彼得·斯特恩(Peter Sterne)已经与GitHub开发者倡导者克里斯蒂娜·沃伦(Christina Warren)合作,试图解决这一问题,并宣布他们正在基于Whisper的机器学习模型创建一个“免费、安全、易于使用的记者转录应用”。我和斯特恩谈过,他说,在他通过这个程序进行了一些采访,并确定它是“除了人类转录员之外,我用过的最好的转录”之后,他决定这个被称为“舞台耳语”的程序应该存在

我将Whisper生成的转录与Otter.ai和Trint为同一文件发布的转录进行了比较,我认为这是相对可比的。它们都有足够多的错误,我绝不会在没有仔细检查音频的情况下就把它们的引用复制粘贴到一篇文章中(这当然是最佳实践,无论你使用的是什么服务)。但是Whisper的版本绝对适合我;我可以通过搜索找到我需要的部分,然后手动仔细检查。理论上,Stage Whisper的性能应该完全相同,因为它将使用相同的模型,只是有一个GUI包裹着它。

Sterne承认,苹果和谷歌的技术可能会在几年内使Stage Whisper过时Pixel的语音记录器应用程序多年来一直能够进行离线转录,该功能的一个版本正开始推广到其他一些Android设备,苹果在iOS中内置了离线听写功能(尽管目前没有一种好的方法可以用它来实际转录音频文件)。“但是我们不能等那么久,”斯特恩说。"今天,像我们这样的记者需要好的自动转录应用程序."他希望在两周内准备好基于Whisper的应用程序的基本版本。

要明确的是,Whisper可能不会完全淘汰Otter.ai和Trint等基于云的服务,不管它有多容易使用。首先,OpenAI的模式缺少了传统转录服务的一个最大特点:能够标记谁说了什么。Sterne说Stage Whisper可能不会支持这个功能:“我们没有开发自己的机器学习模型。”

云只是别人的电脑——这可能意味着它要快得多

当你得到本地处理的好处时,你也有缺点。最主要的一点是,你的笔记本电脑几乎肯定比专业转录服务使用的电脑功能要弱得多。例如,我把一个24分钟长的采访的音频输入到Whisper,在我的M1 MacBook Pro上运行;转录整个文件花了大约52分钟。(是的,我确实确定它使用的是苹果硅版本的Python,而不是英特尔版本。)奥特不到八分钟就吐出了一份笔录。

不过,OpenAI的技术确实有一个很大的优势——价格。如果你是专业人士,基于云的订阅服务几乎肯定会让你花钱(Otter有一个免费层,但即将到来的变化将使它对经常抄写东西的人不那么有用),微软Word或Pixel等平台内置的抄写功能需要你为单独的软件或硬件付费。stage Whisper——以及Whisper本身——是免费的,可以在你已经拥有的计算机上运行。

同样,OpenAI对Whisper的期望比它成为安全转录应用程序的基础更高——我非常兴奋研究人员最终会用它做什么,或者他们会通过查看机器学习模型学到什么,该模型是在“从网络上收集的68万小时多语言和多任务监督数据”的基础上训练的。但事实上,今天它也有一个真实的、实际的用途,这使它更加令人兴奋。