Whisper是什么?
Whisper是OpenAI公司开发的一款最先进的自动语音识别系统,它经过了68万小时多语言和多任务监督数据的训练,这些数据都是从网络上收集来的。这个庞大而多样的数据集提高了对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及从这些语言翻译成英语。OpenAI发布了模型和代码,作为构建利用语音识别的有用应用程序的基础。
如何使用Whisper
耳语模型在GitHub上可用。你可以直接在Jupyter笔记本上用以下命令下载它:
pip安装git+https://github.com/openai/whisper.git
ffmpeg
OpenAI引用了多种方法来安装这个包,但是我们将使用Scoop包管理器。这里有一个教程如何手动完成
在Jupyter Notebook中,您可以使用以下命令安装它:
Irm get.scoop.sh | iex scoop安装ffmpeg
安装后,如果您使用的是本地机器,则需要重新启动。
现在我们可以继续了。接下来我们导入所有必要的库:
Import whisper Import OS Import numpy as np Import torch
FalseTrue
torch.cuda.is_available() DEVICE = "如果torch.cuda.is_available() else "cpu"
现在我们可以加载Whipser模型了。使用以下命令加载模型:
model = whisper.load_model("base", device= device) print(f"模型是{'多语言'如果模型。is_multilingual else 'English-only'} "F& #34;并且有{sum(np.prod(p.shape) for p in model.parameters()):,} parameters.")
请记住,有多种不同的模型可用。你可以在这里找到它们。它们中的每一个都在精度和速度(需要计算)之间进行权衡。我们将使用'基数'本教程的模型。
接下来你需要加载你想要转录的音频文件。
Audio = whisper.load_audio(" Audio .mp3") Audio = whisper.pad_or_trim(Audio) MEL = whisper.log_mel_spectrogram(Audio).to(model.device)
detect_language
_, probs = model.detect_language(mel) print(f"检测到的语言:{max(probs, key=probs.get)}")
我们使用DecodingOptions和decode命令转录音频的前30秒。然后打印出结果:
options = whisper.DecodingOptions(language="en", without_timestamps=True, fp16 = False) result = whisper.decode(model, mel, options) print(result.text)
接下来我们可以转录整个音频文件。
Result = model. transcript ("../input/audiofile/audio.mp3") print(Result ["text"])
这将打印出整个音频文件转录后,执行已经完成。
现在它'由您来创建您自己的应用程序使用Whisper。要有创意,玩得开心!
I'm相信你会发现很多有用的应用Whisper。
你可以在这里找到Jupyter Notebook的完整代码
谢谢你! 阅读。如果你喜欢这个教程,你可以在我们的教程页面上找到更多并继续阅读- Fabian Stehle, New Native的初级数据科学家