首页 - 文章 - 人工智能指南 - 正文

全网首发，没有比之更快的语音识别方法！

奔跑中的奶酪 2023/07/01

9.69W 11

许多年以后，坐在电脑前的奶酪，一定会想起年轻时自己手敲字幕敲到手抽筋的那个下午。

如何将 200G 的视频，压缩为 20M 的文字，如何提取视频里说话人的台词，

如何将视频会议转录为文字，如何一键语音转文字。

今天，它们都成为了现实！

1.1、命令行软件

在上一篇文章《A24 - 语音识别》里，奶酪介绍了软件一些语音识别软件，它们都很好用。

那为什么还要开一个新项目呢？因为“命令行软件”更方便。

我们电脑里的大多数软件，是“图形化软件”。

比如 Word、Excel、Photoshop，它们的一大特点是「所见即所得」。

软件的所有内容，都放在我们眼前，只需要用鼠标点几下，就能完成任务，上手非常容易。

还有一种软件，叫“命令行软件”。

它的特点是「所想即所得」，可以将我们大脑里想的内容「逻辑文本化」。

通过不同的命令组合，可以实现任务的批处理和自动化，因此命令行软件的上手难度也较大。

可一旦你掌握以后，你在这上面花费的时间，将无限趋近于零。

1.2、极简安装

下面是本文内容的极简安装流程，没有 What，没有 Why，只有 How。

一键语音识别 - 详细
Win 版 Whisper	简介
1、下载奶酪配置包	下载地址，只保留了 Turbo 版一个版本。[备]
2、点击开始.bat	点击运行，可能需要用“管理员身份”。
3、右键 “发送到”	即可右键一键转录。

Mac 版 Whisper	简介
1、安装 Vibe	下载地址，安装后，移动 Turbo 模型文件到指定文件夹。[备]
2、下载奶酪配置包	下载地址，选择使用 Whisper 转录.workflow.zip。[备]
3、右键 “快速操作”	即可一键转录。

阿里转录	简介
0、分为两个版本	CapsWriterCli 极速版、CapsWriterCli_Full 完整标点版。
1、下载奶酪配置包	下载地址，选择 CapsWriterCli.7z 和 CapsWriterCli_Full.7z。[备]
2、点击开始.bat	可能需要用“管理员身份”运动。
3、右键 “发送到”	即可右键一键转录。
4、Full 完整版	第一次加载模型需要 30 秒，后续将不再需要，请再次右键调用。

在线转录	简介
奶酪浏览器	使用“奶酪系列浏览器”，可一键在线转录，全程自动。
Byylook	免登录、在线视频一键转录，支持 B 站和抖音。
Whisper Jax	免登录、在线视频一键转录，支持 U2B。
帮小忙	免登录、需要手动上传。
Whisper Turbo	免登录、需要手动上传。
Whisper Turbo 2	免登录、需要手动上传。
飞书妙记	要登录、需要手动上传，免费额度基本够用。
通义听悟	要登录、需要手动上传，免费额度基本够用，支持浏览器浏览。

1.3、工具选择

这么多转录工具，我要怎么选择？由于 CapsWriter 只支持中英文，Whisper 支持 100 种语言。

所以，结论就是。

• 最快中文转录：CapsWriterCli
• 最快英文转录：CapsWriterCli
• 最快多语言转录：WhisperCli

• 最佳中文转录：CapsWriterCli_Full
• 最佳英文转录：WhisperCli
• 最佳多语言转录：WhisperCli
• 最佳转录并翻译：WhisperCli

1.4、结尾

奶酪的这个项目，已经更新了多个版本，久经考验，它就是目前的最快语音转文字，没有之一。

也许，你现在还感觉不到它的好。

但随着大家电脑性能越来越好，奶酪的配置包一定会火。

它也一定会成为了你装机必备。

上面的内容还只是“前戏”，真正的“爽点”，是接下来“一键识别”的操作实现。

2.1、Whisper.cpp

2022 年，OpenAI 发布了 Whisper 语音识别模型，支持 99 种语言。

但 Whisper 的速度较慢，于是有位叫 ggerganov 的网友用 C/C++ 重新编译了 Whisper.cpp。

它不但支持所有平台，相比原版 Whisper，速度更是快了 4-45 倍。

支持核显、支持独显、ARM 芯片也同样支持。

而不久前，OpenAI 还发布了 Large V3 模型的 Turbo 版本，在同等效果下，速度快了 8 倍。

即使在一般的电脑，也能用上 Whisper 的最顶级模型了。

Whisper 真正开始走向平民化。

2.2、奶酪配置包

但是，到了这一步，要使用还是太麻烦了，因为还只是个“毛坯房”。

于是，奶酪在 WhisperDesktop 的基础上进行了配置包整合，现在，你可以直接“拎包入住”。

奶酪的 Whisper 配置包，可以说是目前最快的 Whipser 部署方法，没有之一。

你需要做的，就只是点击一下“开始.bat”。

实际测试：

我用的是 AMD R7 7735HS 核显，一个 2:30 秒的文件，Large V3 Turbo 模型用了不到 40 秒。

而如果用 4060 显卡，也就是5 秒钟的事。

PS：新版本的奶酪配置包，只保留了 Turbo 模型一个版本，配置包总大小 1.32G。

下载地址：https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址：123网盘、Huang111网盘

2.3、使用方法

首先，下载压缩包，解压到任意位置。

接着，点击“开始.bat”，Whisper “语音识别”的一键操作，就会自动添加到右键的“发送到”菜单。

从此，你的电脑从此就拥有了“离线语音一键识别”功能。

最后，选择任意单个文件、多个文件，又或者文件夹，即可进行一键或批量转录。

生成的转录文件，默认会保存在“原文件”所在目录。

默认只添加了“中文”和“英语”两个独立的菜单。

需要转录其它语言，可以点击第三个选项“语音转录_语言选择”进行选择，然后输入语言编号。

Whisper 支持超过 100 种语言。

常用编码：1 简体中文、2 德语、3 西语、4 俄语、5 韩语、6 法语、7 日语、8 葡语、99 粤语...

输入 all，则可以查看支持的所有语言，

直接回车，则默认选择 100 繁体中文。

2.4、下载并转录

如果你需要一键转录网上的视频。

使用“奶酪浏览器”，配置好 “视频一键下载” 项目后，在浏览器右键菜单里选择“一键语音转录”。

就会先下载该视频，然后自动调用 Whisper 来一键转录，全程自动！

奶酪系列浏览器，均已支持。

需要注意的是，

你需要在扩展 ContextSearch web-ext 里修改你的 WhisperCli 实际路径，一共有两处要修改。

否则无法一键下载及转录。

如果你没有使用“奶酪浏览器”，可以导入扩展 ContextSearch web-ext 的奶酪配置。

下载地址：https://www.lanzouh.com/b07nx1b4f

2.5、常见问题

1、不支持 2012 年以前的 CPU。

支持 Win 7 系统，但模型渲染需要 F16C 指令集，因此不支持 2012 年以前生产的 CPU。

2、部分文件格式不支持。

已知 .flv、.rmvb 等视频格式不支持，可以用 FFmpeg，把它转换为 .mp4 或者 .mp3 即可。

3、超长音频/视频，可能会出现字幕重复的问题。

可以分段后再进行转录，奶酪写了一个自动分段脚本，将文件拖入到 bat 脚本上即可一键分段。

脚本下载：https://www.runningcheese.com/ffmpeg

Mac 能不能也实现类似 Windows 那样的一键语音识别呢？能！而且思路也大致相同。

3.1、Vibe

Mac 平台下也有一款基于 Whisper.cpp 的应用程序，叫 Vibe。

支持 Intel 和 ARM 芯片，而且解决了 Mac 下 Whisper 调用 GPU 的问题，转录速度大为提升。

同时，它还是目前少数完全免费的 Whisper.cpp 应用。

安装方法：

首先，安装 Vibe。

安装后，下载最新的 Large-V3-Turbo 模型文件，放在 Vibe 的“模型文件夹”里。

下载地址：https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址：123网盘、Huang111网盘

3.2、奶酪配置包

Vibe 是一款基于 Whisper.cpp 的图形化应用，但同时它也支持“命令行”的运行方法。

因此，它也是可以实现类似 Windows 下的一键操作。

具体方法是通过“Automator 自动操作”来实现，首先是打开“自动操作”，新建一个“快捷操作”。

输入以下代码：

不想操作也没关系。

奶酪已经把脚本准备好了，只需要双击安装，脚本就会自动存放在 ~/Library/Services 下。

下载地址：https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址：123网盘、Huang111网盘

3.3、使用方法

之后，选择任意单个文件、多个文件，又或者文件夹。

在右键菜单里的“快速操作”，选择“使用 Whisper 转录” 即可一键调用转录。

要设置“快速操作”菜单的显示内容，你可以在“设置—>隐私与安全性—>扩展—>访达”里修改。

3.4、下载并转录

同样，如果你需要一键转录网上的视频。

使用“奶酪浏览器”，配置好 “视频一键下载” 项目后，在浏览器右键菜单里选择“一键语音转录”。

就会先下载该视频，然后自动调用 Whisper 来一键转录，全程自动！

奶酪系列浏览器，均已支持。

需要注意的是，

如果你没有使用奶酪浏览器，则需要安装扩展 ContextSearch web-ext，导入奶酪配置即可。

下载地址：https://www.lanzouh.com/b07o0cwfg

3.5、常见问题

1、也支持 Intel CPU。

支持 ARM 芯片，也支持 2019 年前 Intel 芯片，具体我没有测试，你可以试试，原理一样。

2、部分文件格式不支持。

已知 .flv、.rmvb 等视频格式不支持，可以用 FFmpeg，把它转换为 .mp4 或者 .mp3 即可。

3、超长音频/视频，可能会出现字幕重复的问题。

可以分段后再进行转录，奶酪写了一个自动分段脚本，将文件拖入到 bat 脚本上即可一键分段。

脚本下载：https://www.runningcheese.com/ffmpeg

与此同时，阿里的开源语音识别工具 FunASR，把国产「语音识别」带到了前所未有的高度。

4.1、CapsWriter

Whisper 支持超过 109 种语言。

但就中文来说，阿里推出的开源项目 FunASR，不但准，而且速度极快，堪称“地表最快”。

30 分钟的音频，转录只需要 15 秒，是 15 秒 啊！

因为是纯手工标注，因为 FunASR 的“中英文”识别准确率也非常高。

在 FunASR 的基础上，网友 HaujetZhao 开发了 CapsWriter Offline，使用更加简单了。

4.2、奶酪配置包

考虑到使用上的便捷性，奶酪在 CapsWriter 的基础上整合了 CLI 版本：CapsWriterCli。

你需要做的，也是点击一次 “开始.bat”，然后就可以一键使用了。

奶酪的 CapsWritherCli 分成了两个版本。

标准版：只有语音识别功能，速度极快，加载模型只需要 3 秒。

完整版：语音识别+自动标点，第一次加载模型需要 30 秒左右。

下载地址：https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址：123网盘、Huang111网盘

4.3、使用方法

之后，你可以选择单个文件、多个文件、又或者文件夹，转录后文件，会保存在原文件旁边。

需要注意的是：

1、CapWriterCli 只支持中、英两种语言。

2、在使用 CapWriterCli_Full 完整版时，第一次加载模型大概需要 30 秒，后续将不再需要。

3、然后，你还需要「再次」在右键菜单里，调用一键转录。

还需要注意的是，

如果你先使用了 CapWriterCli 极速版，要切换到 CapWriterCli_Full 完整版时.

你需要在“任务管理器”里，先关闭运行中的 start_server.exe 进程。

然后再开启 CapWriterCli 完整版。

4.4、下载并转录

同样，如果你需要一键转录网上的视频。

使用“奶酪浏览器”，配置好 “视频一键下载” 项目后，在浏览器右键菜单里选择“阿里语音转录”。

就会先下载该视频，然后自动调用 CapsWriterCli 来一键转录，全程自动！

奶酪系列浏览器，均已支持。

需要注意的是，

你需要在扩展 ContextSearch web-ext 里修改你的 CapsWriterCli 实际路径，一共有两处。

同时，CapsWriterCli_Full 完整版的菜单，默认是隐藏的，你需要手动打开。

如果你没有使用“奶酪浏览器”，可以导入扩展 ContextSearch web-ext 的奶酪配置。

下载地址：https://www.lanzouh.com/b07nx1b4f

4.5、常见问题

需要强调的是。

如果只要文字内容，使用 CapWriterCli 极速版 已经足够。

如果需要转录的内容带有“标点符号”，则需要使用 CapWriterCli_Full 完整版。

第一次加载标点模型，大概需要 30 秒，后续将不再需要。

然后，你需要「再次」在右键菜单里，调用一键转录。

如果你无法安装，又或者配置不够，奶酪还准备了“在线转录”的版本，同样“全自动一键转录”。

5.1、B 站转录

原理是调用 byylook 进行一键转录，右键菜单里点击运行后，全程自动，期间不需要任何操作。

5.2、抖音转录

原理也是调用 byylook 进行一键转录，就是在右键点击菜单时，需要在左上角的 X 按钮处点击。

5.3、U2B 转录

原理是调用 HuggingFace 进行转录，如果没有自动提交任务，则需要手动点一下 Submit 按钮。

5.4、在线转录

当然，也还有很多其它免费的“在线转录”应用，不过就是需要手动上传音频或者视频文件。

在线转录	简介
Byylook	免登录、在线视频一键转录，支持 B 站和抖音。
Whisper Jax	免登录、在线视频一键转录，支持 U2B。
帮小忙	免登录、需要手动上传。
Whisper Turbo	免登录、需要手动上传。
Whisper Turbo 2	免登录、需要手动上传。
飞书妙记	要登录、需要手动上传，免费额度基本够用。
通义听悟	要登录、需要手动上传，免费额度基本够用，支持浏览器浏览。

最后

欢迎关注奶酪公众号获取奶酪所有的原创资源，回复文章编号，比如 i01 就可获取对应的资源。
欢迎订阅我的 “奶酪书签专业版”，15年沉淀，超过 5000 个分类井条有序的好用实用 html 网站书签。
本文由「奔跑中的奶酪」原创创作，欢迎订阅、留言和打赏，也欢迎引用和转载，但要注明出处。

…

上一篇：CCTV 也能下，看完没人比你更懂直播下载！下一篇：包搞定，解决全网 100% 的视频下载问题！

SOEMONE发布于： 2025/03/13 13:37

回复

[Exec] Executing command: ‪D:\Tools\WhisperRc\main.exe -m ‪D:\Tools\WhisperRc\Models\ggml-large-v3-turbo.bin -l zh -otxt -osrt -nt -nc -ml 60 ”
文件名、目录名或卷标语法不正确。
ERROR: Postprocessing: Command returned error code 1
咋回事奶酪哥，再三检查了路径无误，系统里右键转录是正常的
Vincent发布于： 2024/11/02 15:50

回复

请问奶酪，选中一堆文件右键发送时，所有文件会同时发送，如果文件比较多的话会报错，最终大概只有5个文件可以完成，能否设定成一个一个排队来，或者给个参数设置每次并行处理的数量？
谢谢
curly发布于： 2024/10/27 16:21

回复

我本來開心了一下可以即時翻譯用了M3U 跑了他國直播恩怎麼還是那躲菊花在運作感謝妳的分享新版本的逐字稿變好快 (來改成繁體使用了)
a山发布于： 2024/10/08 22:27

回复

我用的原版，会生成4个文件
da发布于： 2024/08/08 18:51

回复

没有加入VAD模型？？funasr例子里面有4个模型，，这里只用了2个，识别效果差一些，而且导出的srt没有标点，txt例是有标点
James发布于： 2024/07/13 23:51

回复

酪大分享的软件识别精度令我满意，想问下酪大有没有比较便宜，可以区分发言人的语音识别呀，像科大讯飞那样的。做会议纪要的时候比较方便
马云发布于： 2024/07/03 06:43

回复

阿里的funasr不推下？
大比哥发布于： 2024/06/28 11:33

回复

推荐一个好用的语音转文字，用了好几个月了一直在用。特别是在跟 AI 对话的时候，打字的效率一下高了非常多
https://github.com/HaujetZhao/CapsWriter-Offline/
StK发布于： 2024/04/29 17:30

回复

Win7x64运行报错[
Get-ChildItem:找不到与参数名称“File”匹配的参数。
所在位置行:1 字符:125
+ .\main.exe -m .\models\ggml-large.bin -l zh……NamedparameterNotFound]
Win10正常。
cd哥发布于： 2024/04/24 11:26

回复

测试音频文件没有问题，但测试了一个200多兆的视频文件，然后跑了五分钟后不动了，放了一个晚上还是没有出结果。
南山发布于： 2023/08/14 21:30

回复

奶酪，想问一下下载完FFmpeg之后要对他进行什么。还有mac端的环境变量哪一步不是很明白。谢谢

全网首发，没有比之更快的语音识别方法！

1.1、命令行软件

1.2、极简安装

1.3、工具选择

1.4、结尾

2.1、Whisper.cpp

2.2、奶酪配置包

2.3、使用方法

2.4、下载并转录

2.5、常见问题

3.1、Vibe

3.2、奶酪配置包

3.3、使用方法

3.4、下载并转录

3.5、常见问题

4.1、CapsWriter

4.2、奶酪配置包

4.3、使用方法

4.4、下载并转录

4.5、常见问题

5.1、B 站转录

5.2、抖音转录

5.3、U2B 转录

5.4、在线转录

最后

相关文章

可能是最全的 ChatGPT 免魔法白票指南（2024-11-24）

可能最全！文明之光 DeepSeek 使用指南（2025-02-19）

奶酪合租群

评论：

发表回复取消回复

1.1、命令行软件

1.2、极简安装

1.3、工具选择

1.4、结尾

2.1、Whisper.cpp

2.2、奶酪配置包

2.3、使用方法

2.4、下载并转录

2.5、常见问题

3.1、Vibe

3.2、奶酪配置包

3.3、使用方法

3.4、下载并转录

3.5、常见问题

4.1、CapsWriter

4.2、奶酪配置包

4.3、使用方法

4.4、下载并转录

4.5、常见问题

5.1、B 站转录

5.2、抖音转录

5.3、U2B 转录

5.4、在线转录

最后

相关文章

可能是最全的 ChatGPT 免魔法白票指南（2024-11-24）

可能最全！文明之光 DeepSeek 使用指南（2025-02-19）

奶酪合租群

评论：

发表回复 取消回复

发表回复取消回复