OpenAI宣布开源多语言语音识别系统Whisper

尽管包括 Google、亚马逊和 Meta 在内的科技巨头，都将各自开发的功能强大的语音识别系统置于其软件和服务的核心地位。但在人工智能和机器学习领域，语音识别仍是一个颇具挑战性的话题。好消息是，今日 OpenAI 隆重地宣布了 Whisper 的开源 —— 可知作为一套自动语音识别系统，官方宣称它能够实现多种语言的强大转录、并将它们翻译成英语。

（来自：OpenAI Blog）

OpenAI 表示，Whisper 的不同之处，在于其接受了从网络收集的 68 万小时的多语言和“多任务”训练数据，从而提升了该方案对独特口音、背景噪声和技术术语的识别能力。

官方 GitHub存储库上的概述称：

Whisper 模型的主要目标用户，是研究当前模型稳健性、泛化、能力、偏差和约束的 AI 研究人员。
与此同时，它也很适合作为面向开发者的自动语音识别解决方案尤其是英语语音识别。
感兴趣的朋友，可以从托管平台上下载 Whisper 系统的多个版本，其模型在大约 10 种语言上展现出了强大的 ASR 结果。
此外假如在某些任务上加以微调的话，它们还有望在语音活动检测、讲述者分类等应用场景下表现出额外的能力。

架构示意

遗憾的是，Whisper 尚未在相关领域得到强有力的评估、且模型也有其局限性 —— 有其在文本预测领域。

由于该系统接受了大量“嘈杂”的数据训练，OpenAI 决定提前给大家打一剂预防针，警告称 Whisper 可能在转录中包含实际上未讲述的单词。

原因可能是 Whisper 既试图预测音频中的下一个单词、又试图转录音频本身。

流程示例

此外 Whisper 在不同语言场景下的表现也不大一致，尤其涉及在训练数据中没有很好被代表的语言的讲述者时，其错误率也会更高。

不过后者在语音识别领域早已不是什么新鲜事，即使业内首屈一指的系统，也一直受到此类偏差的困扰。

参考斯坦福大学在 2020 年分享的一项研究结果 —— 相较于黑人，来自亚马逊、苹果、Google、IBM 和微软的系统，针对白人用户的错误率要低得多（大约 35%）。

Whisper 有约 1/3 的音频数据集为非英语

即便如此，OpenAI 还是认为 Whisper 的转录功能，可被用于改进现有的可访问性工具。其在 GitHub 上写道：

尽管 Whisper 模型不适用于开箱即用的实时转录，但其速度和大小表明，其他人可在此基础上构建近乎实时的语音识别和翻译应用程序。
建立在 Whisper 模型之上的有益应用程序，其价值切实地表明了这些模型的不同性能，有望发挥出真正的经济影响力。
我们希望大家能够将该技术积极应用于有益目的，使自动语音识别技术更易获得改进、让更多参与者能够打造出更负责任的项目。
在速度和准确性的双重优势下，Whisper 将允许对大量通信提供可负担得起的自动转录和翻译体验。

OpenAI宣布开源多语言语音识别系统Whisper

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言

终结扩散模型：OpenAI开源新模型代码，一步成图，1秒18张

OpenAI新生成模型开源炸场！比Diffusion更快更强，清华校友一作

ChatGPT国内版，直接访问，速度超快

免费版CHATGPT3.5

AI巅峰“ChatGPT”居然也塌房了？OpenAI 称开源数据库 Redis 漏了底

ChatGPT开源替代来了！参数量200亿，在4300万条指令上微调而成

ChatGPT为首的AI太火了，日常工作有用吗？怎么用?

"ChatGPT：颠覆传统，脱胎换骨的新一代人工智能平台！"

ChatGPT实测分享！它到底有多神奇？

图片 AI 工具

游戏 AI 工具

视频 AI 工具

聊天 AI 工具

音频 AI 工具

AI 资讯

AI 教程

Prompt 词库