已汉化！高效音频转文本工具Whisper

大家好，我是站长可乐，今天给大家推荐的是音频转文本工具——Whisper，Whisper是由OpenAI开发的一个自动语音识别(ASR)开源系统。
经过训练，它能够支持多种语言的语音转录，并且可以将这些语言翻译成英文，同时还能够有效地过滤掉背景音和杂音。

OpenAI的技术文档介绍了如何基于Whisper模型调用语言转文本API来实现语言转写或将语言翻译成英文的功能。

Speech-to-text API 介绍文档
https://platform.openai.com/docs/guides/speech-to-text

这里我们先在下载好Whisper模型（下载地址请见文末）：

加载好模型，界面就是这样，请设置识别的语言。

我们现在测试下事先录制好的音频文件，名为“小轻论坛公众号测试文件”。

我们将输出格式设置为文本格式，并将其输出到文件夹。点击“抄写”按钮进行转换。

从结果来看，文本识别效果还是不错的，有同音字属于正常情况。另外它还将我说的引用内容进行了符号引用，文本也进行了换行，这是我没想到的。
那我们接下来测试下英文内容，名为“English test document of Xiaoqing Forum official account”。

同样设置为文本格式输出。

原文英文材料为：

This is a test file of the official account of Xiaoqing Forum. The content is "Xiaoqing Forum Technology Sharing Forum"

系统仅仅将“Xiaoqing”识别成了“Xiaking”，这也是比较合理的音翻问题。
当然软件还有很多功能需要挖掘，比如翻译功能和音频捕获功能，这里先给大家演示音频捕获功能，就是边说边转文字。

需要注意的是，在使用捕获音频功能是，语音活动灯亮就是有语音输入，转录灯亮起就是在转录文字，熄灭就代表转录完成或者正在录音，录音完成后，转录灯熄灭，点击“Stop”按钮，就能查看到文字结果。

这里说一下翻译功能，翻译是将语言翻译成英语，所以在选择识别语音为English时，点击翻译会提示“ 翻译功能将语音翻译成英语。当音频语言已经是英语时，它是不可用的。 ”

至于调试控制台就是方便大家查看软件活动的，自己也可以探索一下其他的功能。
今天的分享就到这里，有任何问题都可以随时在公众号后台或者通过客服账号反馈给我。

下载地址

给大家准备了下载地址和模型下载地址，关注本站公众号【小轻论坛】回复关键词“ Whisper ”即可获取下载。

当前页面是本站的「Baidu MIP」版。发表评论请点击：完整版 »