耳语示例:
这是 Micro Machine Man,展示了 Micro Machines 中最小型的微型车队。每一个都有引人注目的细节、出色的装饰、精密的油漆工作,以及令人难以置信的微型机器袖珍玩具套装。有警察局、消防局、餐厅、服务站等等。完美的袖珍便携设备,可随身携带。还有许多微型玩具套装可供玩耍,每一款都配有自己的特别版微型机器车和可以奇迹般移动的有趣、奇妙的功能。在机场码头升起升船机。在陆军基地操纵炮塔。在洗车场清洁汽车。抬高收费桥。这些玩具组合在一起构成了一个微型机器世界。 Micro Machine Pocket Play Sets,非常小,非常精确,非常精致,你会想把它们全部装进口袋。 Micro Machines 是 Galoob 单独出售的微型机器袖珍玩具套装。越小越好。

Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。我们开源模型和推理代码,作为构建有用应用程序和进一步研究稳健语音处理的基础。

ASR Summary Of Model Architecture

Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器经过训练以预测相应的文本标题,并与特殊标记混合使用,这些标记指示单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

Diagram detailing how ASR models are trained

其他现有方法经常使用更小、更紧密配对的音频 -文本训练数据集,[^reference-1] [^reference-2][^reference-3] 或使用广泛但无监督的音频预训练.[^reference-4][^reference-5] [^reference-6] 因为 Whisper 是在一个庞大而多样化的数据集上训练的,并且没有针对任何特定数据集进行微调,所以它没有击败专门研究 LibriSpeech 性能的模型,这是语音识别领域著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更稳健并且错误率降低了 50%。

Whisper 的音频数据集大约有三分之一是非英语的,它交替地被赋予以原始语言转录或翻译成英语的任务。我们发现这种方法在学习语音到文本翻译方面特别有效,并且在 CoVoST2 到英语翻译零样本上优于监督式 SOTA。

ASR 训练数据输入和输出
ASR 训练数据输入和输出
/div>

我们希望 Whisper 的高精度和易用性能够成为允许开发人员将语音接口添加到范围更广的应用程序中。查看论文、模型卡和代码以了解更多详细信息并试用 Whisper。

耳语示例:
这是 Micro Machine Man,展示了 Micro Machines 中最小型的微型车队。每一个都有引人注目的细节、出色的装饰、精密的油漆工作,以及令人难以置信的微型机器袖珍玩具套装。有警察局、消防局、餐厅、服务站等等。完美的袖珍便携设备,可随身携带。还有许多微型玩具套装可供玩耍,每一款都配有自己的特别版微型机器车和可以奇迹般移动的有趣、奇妙的功能。在机场码头升起升船机。在陆军基地操纵炮塔。在洗车场清洁汽车。抬高收费桥。这些玩具组合在一起构成了一个微型机器世界。 Micro Machine Pocket Play Sets,非常小,非常精确,非常精致,你会想把它们全部装进口袋。 Micro Machines 是 Galoob 单独出售的微型机器袖珍玩具套装。越小越好。

Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。我们开源模型和推理代码,作为构建有用应用程序和进一步研究稳健语音处理的基础。

ASR Summary Of Model Architecture

Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器经过训练以预测相应的文本标题,并与特殊标记混合使用,这些标记指示单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

Diagram detailing how ASR models are trained

其他现有方法经常使用更小、更紧密配对的音频 -文本训练数据集,[^reference-1] [^reference-2][^reference-3] 或使用广泛但无监督的音频预训练.[^reference-4][^reference-5] [^reference-6] 因为 Whisper 是在一个庞大而多样化的数据集上训练的,并且没有针对任何特定数据集进行微调,所以它没有击败专门研究 LibriSpeech 性能的模型,这是语音识别领域著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更稳健并且错误率降低了 50%。

Whisper 的音频数据集大约有三分之一是非英语的,它交替地被赋予以原始语言转录或翻译成英语的任务。我们发现这种方法在学习语音到文本翻译方面特别有效,并且在 CoVoST2 到英语翻译零样本上优于监督式 SOTA。

ASR 训练数据输入和输出
ASR 训练数据输入和输出
/div>

我们希望 Whisper 的高精度和易用性能够成为允许开发人员将语音接口添加到范围更广的应用程序中。查看论文、模型卡和代码以了解更多详细信息并试用 Whisper。

耳语示例:
这是 Micro Machine Man,展示了 Micro Machines 中最小型的微型车队。每一个都有引人注目的细节、出色的装饰、精密的油漆工作,以及令人难以置信的微型机器袖珍玩具套装。有警察局、消防局、餐厅、服务站等等。完美的袖珍便携设备,可随身携带。还有许多微型玩具套装可供玩耍,每一款都配有自己的特别版微型机器车和可以奇迹般移动的有趣、奇妙的功能。在机场码头升起升船机。在陆军基地操纵炮塔。在洗车场清洁汽车。抬高收费桥。这些玩具组合在一起构成了一个微型机器世界。 Micro Machine Pocket Play Sets,非常小,非常精确,非常精致,你会想把它们全部装进口袋。 Micro Machines 是 Galoob 单独出售的微型机器袖珍玩具套装。越小越好。

Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。我们开源模型和推理代码,作为构建有用应用程序和进一步研究稳健语音处理的基础。

ASR Summary Of Model Architecture

Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器经过训练以预测相应的文本标题,并与特殊标记混合使用,这些标记指示单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

Diagram detailing how ASR models are trained

其他现有方法经常使用更小、更紧密配对的音频 -文本训练数据集,[^reference-1] [^reference-2][^reference-3] 或使用广泛但无监督的音频预训练.[^reference-4][^reference-5] [^reference-6] 因为 Whisper 是在一个庞大而多样化的数据集上训练的,并且没有针对任何特定数据集进行微调,所以它没有击败专门研究 LibriSpeech 性能的模型,这是语音识别领域著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更稳健并且错误率降低了 50%。

Whisper 的音频数据集大约有三分之一是非英语的,它交替地被赋予以原始语言转录或翻译成英语的任务。我们发现这种方法在学习语音到文本翻译方面特别有效,并且在 CoVoST2 到英语翻译零样本上优于监督式 SOTA。

ASR 训练数据输入和输出
ASR 训练数据输入和输出
/div>

我们希望 Whisper 的高精度和易用性能够成为允许开发人员将语音接口添加到范围更广的应用程序中。查看论文、模型卡和代码以了解更多详细信息并试用 Whisper。

ASR Summary Of Model Architecture

耳语示例:
这是 Micro Machine Man,展示了 Micro Machines 中最小型的微型车队。每一个都有引人注目的细节、出色的装饰、精密的油漆工作,以及令人难以置信的微型机器袖珍玩具套装。有警察局、消防局、餐厅、服务站等等。完美的袖珍便携设备,可随身携带。还有许多微型玩具套装可供玩耍,每一款都配有自己的特别版微型机器车和可以奇迹般移动的有趣、奇妙的功能。在机场码头升起升船机。在陆军基地操纵炮塔。在洗车场清洁汽车。抬高收费桥。这些玩具组合在一起构成了一个微型机器世界。 Micro Machine Pocket Play Sets,非常小,非常精确,非常精致,你会想把它们全部装进口袋。 Micro Machines 是 Galoob 单独出售的微型机器袖珍玩具套装。越小越好。

Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。我们开源模型和推理代码,作为构建有用应用程序和进一步研究稳健语音处理的基础。

ASR Summary Of Model Architecture

Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器经过训练以预测相应的文本标题,并与特殊标记混合使用,这些标记指示单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

Diagram detailing how ASR models are trained

其他现有方法经常使用更小、更紧密配对的音频 -文本训练数据集,[^reference-1] [^reference-2][^reference-3] 或使用广泛但无监督的音频预训练.[^reference-4][^reference-5] [^reference-6] 因为 Whisper 是在一个庞大而多样化的数据集上训练的,并且没有针对任何特定数据集进行微调,所以它没有击败专门研究 LibriSpeech 性能的模型,这是语音识别领域著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更稳健并且错误率降低了 50%。

Whisper 的音频数据集大约有三分之一是非英语的,它交替地被赋予以原始语言转录或翻译成英语的任务。我们发现这种方法在学习语音到文本翻译方面特别有效,并且在 CoVoST2 到英语翻译零样本上优于监督式 SOTA。

ASR 训练数据输入和输出
ASR 训练数据输入和输出
/div>

我们希望 Whisper 的高精度和易用性能够成为允许开发人员将语音接口添加到范围更广的应用程序中。查看论文、模型卡和代码以了解更多详细信息并试用 Whisper。


Diagram detailing how ASR models are trained

Other existing approaches frequently use smaller, more closely paired audio-text training datasets,[^reference-1] [^reference-2][^reference-3] or use broad but unsupervised audio pretraining.[^reference-4][^reference-5][^reference-6] Because Whisper was trained on a large and diverse dataset and was not fine-tuned to any specific one, it does not beat models that specialize in LibriSpeech performance, a famously competitive benchmark in speech recognition. However, when we measure Whisper’s zero-shot performance across many diverse datasets we find it is much more robust and makes 50% fewer errors than those models.

About a third of Whisper’s audio dataset is non-English, and it is alternately given the task of transcribing in the original language or translating to English. We find this approach is particularly effective at learning speech to text translation and outperforms the supervised SOTA on CoVoST2 to English translation zero-shot.

ASR training data inputs and outputs
ASR training data inputs and outputs

We hope Whisper’s high accuracy and ease of use will allow developers to add voice interfaces to a much wider set of applications. Check out the paper, model card, and code to learn more details and to try out Whisper.