您以任何语言记录制作,API 提取文本。

在此示例中,API 从 YouTube 视频中提取文档。

让我们尝试在 Python 中使用 OpenAI Whisper API 从 YouTube 视频中提取文本。

蚂蚁代码:

#作者:劳伦斯·特谢拉
# 日期:02/11/2022# 运行此脚本的要求:
#pip install git+https://github.com/openai/whisper.git
#pip install pytube#导入必须的包
将 pytube 导入为 pt
import whisper# 从 youtube 视频下载 mp3(Inductrion to Whisper:语音识别)
yt = pt.YouTube("https://www.youtube.com/watch?v=Bf6Z5bjlHcI")
stream = yt.streams.filter(only_audio=True)[0]
stream.download(filename="audio.mp3")#加载模型
model = whisper.load_model("medium")#转录音乐文件
result = model.transcribe("audio.mp3")#打印从视频中提取的文本
打印(结果[“文本”])

从视频“耳语简介:语言识别”中提取的文本。

“Whisper is Oppenai 是 Oppenai 上周发布的用于语言识别的开放深度学习模型。Oppenai 对 Whisper 的测试表明,它不仅可以很好地转录英语音频的,还可以转载录视频。使用过耳语并了解了它的功能开发人员和研究人员也对它印象深刻。但 Whisper 的发布可能同样重要,因为它告诉我们人类工智能 AI 研究正以开发如何改进,我可以修改以期等待什么的应用。 Oppenai 的Whisper对所有类型的数据都是开放的。关于Whisper最重要的事情之一是它使用许多不同类型的数据进行训练。Whisper接收了来自0的来0,来自8网络数据的训练,这些数据由说不同语言并执行不同职务的人监督。三分之一的训练数据由非英语的音频提示示例组成。平执行大约 10 种语言。还可以将这些语言翻译成英语。虽然管该实验室对英语以外的语言的分析并不完整,但使用过它的人表明它给出了很好的结果,人奁。研究社区对不同类型的数据越来越感兴趣。今年,Bloom成为第一个可以处理的59种不同语言的语言模型。Meta还在开发一种可以在200种不同语言的猜谜之间进行。通过转向更多的数据和语言多种多样,更多的人将能够使用深度学习的步骤并从中受益。由于Whisper是开源的,因此请自行测试。开发人员和用户可以选择候选人、选择候选人桌面工作站、移动设备或云服务器上运行它。 OpenAI 制作了五种不同尺寸的耳语。每个尺寸都按比例以精度替换速度,最小的模型比最大的模型快大大约倨到60倍。使用Whiper能做什么的开发人员对它很满意,它可以使基于云的 ASR 服务(到目标之前停止一直是主要选择)变得不那么吸引人。而 Lobs 专家 Noah Giff 告诉 VentraBeat,乇一看者,Whisper产品准确得多。由于它是免费的且可以编写程序,因此对于刚刚进行转录的服务来说这可能是一个非常大的问题。耳语作为已经训练过的模型的开源任何人都可以下载并在他们想要的任何计算机平台上运行。在过去的几个月里,商人智能研究实验室一直在朝着更向公众开放的方向发展的方向。序。已经有很多方法可以让不知道如何设置和运动机器学习模型的人更容易使用 Whisper。一个例子是记录者彼得·斯特恩 (Peter Stern) 和 GitHub 工程师克里斯蒂娜·沃伦 (Christina Warren),在一个猴子hisper 的记录者制作一款免费、安全且易于使用的转载应用程序。在云中,像Whisper这样的开源模型正在使用新事物成为可能。托管 Whisper 并使其可以通过 API 调用访问。 Hugging Face 的增长和产品经理 Jeff Bootyer 告诉 VentraBeat,公司需要 10 分钟才能创造自己的由 Whisper 提供支持的转录服务并开始转录电话亭或鼎使是大规矩的。 Hugging Face 已经有许多基于耳语的服务,例如翻译YouTube视频的应用程序。或者,您可以调整现有的应用程序以满足您的需求。微调是采用已经训练过的模型模型并制作应用程序的过程,这是 Whisper 等开源模型的另一个好的地方。例如,可以调整Whisper以使用ASR在当前模型无法很好处理的语言中更好地工作。或者,可以对其进行调整以更好地掩耳盗铃技术语。另一个有趣的想法是针对ASR以外的任事微调模型,例如经验证明说话者、查找声音事件和查找关键字。使用即插即用服务,以获比以先更好的结果。当您将其与微调模型结合使用时,性会变得更好。对预训练数据集没有很好表现的语言以进行常规微调行情状况产生很大影响。”

如您所见,文本正是所说的内容。请注意,在这个例子中,我们使用中间模型。以下是我们可以使用来提供高精度的模型。

可用型号和语言

有五种模型尺寸,其中四种只有英文版,提供速度和准确的权衡。以下是可用型号的名称及其大致的内存要求和相对速度。

.entiny.enbase.ensmall.enmedium.en

Whisper 的性能力因语言而异。下图显示了使用大型模型对 Fleur 数据集选择语言进行的 WER 细分。附录D中找到。

结论:尽管关于 AI Whisper 的效果如何仍存在一些争议,但其背后的概念值得思考。随着越来越多的企业转向自动化营销和客户服务,AI Whisper 对于那些希望在行业中取得成功的人来说可能是一个有价值的工具。您是否尝试过使用 AI Whisper 或任何其他类似工具?让我们在评论中知道!

遵循官方 Whisper 参考资料:

如果您需要更多此类内容,请单击我的博客链接。

今天就到这里!