Model Card: Whisper
这是运行由 OpenAI 训练和发布的自动语音识别 (ASR) 模型(Whisper 模型)的官方代码库。
在模型报告模型卡(Mitchell 等人)之后,我们提供了一些关于自动语音识别模型的信息。有关如何训练和评估这些模型的更多信息,请参阅本文。
模型详细信息
Whisper 模型经过训练用于语音识别和翻译任务,能够将语音音频转录为所用语言 (ASR) 的文本,并翻译成英语(语音翻译)。 OpenAI 的研究人员开发了模型来研究在大规模弱监督下训练的语音处理系统的稳健性。下表总结了 9 种不同尺寸和功能的型号。
<表>
<头> | |||||||
---|---|---|---|---|---|---|---|
大小 | 参数 | ||||||
仅英语模型 | 多语言模型 | ||||||
<正文> | |||||||
小 | 39M | ||||||
✓ | ✓ | ||||||
基础 | 74M | ✓ | ✓ | ||||
小 |
244M
✓
✓
中等
769 M
✓
✓
大
1550 M
✓
发布日期
large-v2
模型类型
Sequence-to-sequence ASR(自动语音识别)和语音翻译模型