全网首发,没有比之更快的语音识别方法!
许多年以后,坐在电脑前的奶酪,一定会想起年轻时自己手敲字幕敲到手抽筋的那个下午。
如何将 200G 的视频,压缩为 20M 的文字,如何提取视频里说话人的台词,
如何将视频会议转录为文字,如何一键语音转文字。
今天,它们都成为了现实!
1.1、命令行软件
在上一篇文章《A24 - 语音识别》里,奶酪介绍了软件一些语音识别软件,它们都很好用。
那为什么还要开一个新项目呢?因为“命令行软件”更方便。
我们电脑里的大多数软件,是“图形化软件”。
比如 Word、Excel、Photoshop,它们的一大特点是「所见即所得」。
软件的所有内容,都放在我们眼前,只需要用鼠标点几下,就能完成任务,上手非常容易。
还有一种软件,叫“命令行软件”。
它的特点是「所想即所得」,可以将我们大脑里想的内容「逻辑文本化」。
通过不同的命令组合,可以实现任务的批处理和自动化,因此命令行软件的上手难度也较大。
可一旦你掌握以后,你在这上面花费的时间,将无限趋近于零。
1.2、极简安装
下面是本文内容的极简安装流程,没有 What,没有 Why,只有 How。
一键语音识别 - 详细 |
|
---|---|
Win 版 Whisper | 简介 |
1、下载 奶酪配置包 | 下载地址,只保留了 Turbo 版一个版本。[备] |
2、点击 开始.bat | 点击运行,可能需要用“管理员身份”。 |
3、右键 “发送到” | 即可右键一键转录。 |
Mac 版 Whisper | 简介 |
1、安装 Vibe | 下载地址,安装后,移动 Turbo 模型文件到指定文件夹。[备] |
2、下载 奶酪配置包 | 下载地址,选择 使用 Whisper 转录.workflow.zip。[备] |
3、右键 “快速操作” | 即可一键转录。 |
阿里转录 | 简介 |
0、分为两个版本 | CapsWriterCli 极速版、CapsWriterCli_Full 完整标点版。 |
1、下载 奶酪配置包 | 下载地址,选择 CapsWriterCli.7z 和 CapsWriterCli_Full.7z。[备] |
2、点击 开始.bat | 可能需要用“管理员身份”运动。 |
3、右键 “发送到” | 即可右键一键转录。 |
4、Full 完整版 | 第一次加载模型需要 30 秒,后续将不再需要,请再次右键调用。 |
在线转录 | 简介 |
奶酪浏览器 | 使用“奶酪系列浏览器”,可一键在线转录,全程自动。 |
Byylook | 免登录、在线视频一键转录,支持 B 站 和 抖音。 |
Whisper Jax | 免登录、在线视频一键转录,支持 U2B。 |
帮小忙 | 免登录、需要手动上传。 |
Whisper Turbo | 免登录、需要手动上传。 |
Whisper Turbo 2 | 免登录、需要手动上传。 |
飞书妙记 | 要登录、需要手动上传,免费额度基本够用。 |
通义听悟 | 要登录、需要手动上传,免费额度基本够用,支持浏览器浏览。 |
1.3、工具选择
这么多转录工具,我要怎么选择?由于 CapsWriter 只支持中英文,Whisper 支持 100 种语言。
所以,结论就是。
• 最快中文转录:CapsWriterCli
• 最快英文转录:CapsWriterCli
• 最快多语言转录:WhisperCli
• 最佳中文转录:CapsWriterCli_Full
• 最佳英文转录:WhisperCli
• 最佳多语言转录:WhisperCli
• 最佳转录并翻译:WhisperCli
1.4、结尾
奶酪的这个项目,已经更新了多个版本,久经考验,它就是目前的最快语音转文字,没有之一。
也许,你现在还感觉不到它的好。
但随着大家电脑性能越来越好,奶酪的配置包一定会火。
它也一定会成为了你装机必备。
上面的内容还只是“前戏”,真正的“爽点”,是接下来“一键识别”的操作实现。
2.1、Whisper.cpp
2022 年,OpenAI 发布了 Whisper 语音识别模型,支持 99 种语言。
但 Whisper 的速度较慢,于是有位叫 ggerganov 的网友用 C/C++ 重新编译了 Whisper.cpp。
它不但支持所有平台,相比原版 Whisper,速度更是快了 4-45 倍。
支持核显、支持独显、ARM 芯片也同样支持。
而不久前,OpenAI 还发布了 Large V3 模型的 Turbo 版本,在同等效果下,速度快了 8 倍。
即使在一般的电脑,也能用上 Whisper 的最顶级模型了。
Whisper 真正开始走向平民化。
2.2、奶酪配置包
但是,到了这一步,要使用还是太麻烦了,因为还只是个“毛坯房”。
于是,奶酪在 WhisperDesktop 的基础上进行了配置包整合,现在,你可以直接“拎包入住”。
奶酪的 Whisper 配置包,可以说是目前最快的 Whipser 部署方法,没有之一。
你需要做的,就只是点击一下“开始.bat”。
实际测试:
我用的是 AMD R7 7735HS 核显,一个 2:30 秒的文件,Large V3 Turbo 模型用了不到 40 秒。
而如果用 4060 显卡,也就是5 秒钟的事。
PS:新版本的奶酪配置包,只保留了 Turbo 模型一个版本,配置包总大小 1.32G。
下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘、Huang111网盘
2.3、使用方法
首先,下载压缩包,解压到任意位置。
接着,点击“开始.bat”,Whisper “语音识别”的一键操作,就会自动添加到右键的“发送到”菜单。
从此,你的电脑从此就拥有了“离线语音一键识别”功能。
最后,选择任意单个文件、多个文件,又或者文件夹,即可进行一键或批量转录。
生成的转录文件,默认会保存在“原文件”所在目录。
默认只添加了“中文”和“英语”两个独立的菜单。
需要转录其它语言,可以点击第三个选项“语音转录_语言选择”进行选择,然后输入语言编号。
Whisper 支持超过 100 种语言。
常用编码:1 简体中文、2 德语、3 西语、4 俄语、5 韩语、6 法语、7 日语、8 葡语、99 粤语...
输入 all,则可以查看支持的所有语言,
直接回车,则默认选择 100 繁体中文。
2.4、下载并转录
如果你需要一键转录网上的视频。
使用“奶酪浏览器”,配置好 “视频一键下载” 项目后,在浏览器右键菜单里选择“一键语音转录”。
就会先下载该视频,然后自动调用 Whisper 来一键转录,全程自动!
奶酪系列浏览器,均已支持。
需要注意的是,
你需要在扩展 ContextSearch web-ext 里修改你的 WhisperCli 实际路径,一共有两处要修改。
否则无法一键下载及转录。
如果你没有使用“奶酪浏览器”,可以导入扩展 ContextSearch web-ext 的奶酪配置。
下载地址:https://www.lanzouh.com/b07nx1b4f
2.5、常见问题
1、不支持 2012 年以前的 CPU。
支持 Win 7 系统,但模型渲染需要 F16C 指令集,因此不支持 2012 年以前生产的 CPU。
2、部分文件格式不支持。
已知 .flv、.rmvb 等视频格式不支持,可以用 FFmpeg,把它转换为 .mp4 或者 .mp3 即可。
3、超长音频/视频,可能会出现字幕重复的问题。
可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。
Mac 能不能也实现类似 Windows 那样的一键语音识别呢?能!而且思路也大致相同。
3.1、Vibe
Mac 平台下也有一款基于 Whisper.cpp 的应用程序,叫 Vibe。
支持 Intel 和 ARM 芯片,而且解决了 Mac 下 Whisper 调用 GPU 的问题,转录速度大为提升。
同时,它还是目前少数完全免费的 Whisper.cpp 应用。
安装方法:
首先,安装 Vibe。
安装后,下载最新的 Large-V3-Turbo 模型文件,放在 Vibe 的“模型文件夹”里。
下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘、Huang111网盘
3.2、奶酪配置包
Vibe 是一款基于 Whisper.cpp 的图形化应用,但同时它也支持“命令行”的运行方法。
因此,它也是可以实现类似 Windows 下的一键操作。
具体方法是通过“Automator 自动操作”来实现,首先是打开“自动操作”,新建一个“快捷操作”。
输入以下代码:
不想操作也没关系。
奶酪已经把脚本准备好了,只需要双击安装,脚本就会自动存放在 ~/Library/Services 下。
下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘、Huang111网盘
3.3、使用方法
之后,选择任意单个文件、多个文件,又或者文件夹。
在右键菜单里的“快速操作”,选择“使用 Whisper 转录” 即可一键调用转录。
要设置“快速操作”菜单的显示内容,你可以在“设置—>隐私与安全性—>扩展—>访达”里修改。
3.4、下载并转录
同样,如果你需要一键转录网上的视频。
使用“奶酪浏览器”,配置好 “视频一键下载” 项目后,在浏览器右键菜单里选择“一键语音转录”。
就会先下载该视频,然后自动调用 Whisper 来一键转录,全程自动!
奶酪系列浏览器,均已支持。
需要注意的是,
如果你没有使用奶酪浏览器,则需要安装扩展 ContextSearch web-ext,导入奶酪配置即可。
下载地址:https://www.lanzouh.com/b07o0cwfg
3.5、常见问题
1、也支持 Intel CPU。
支持 ARM 芯片,也支持 2019 年前 Intel 芯片,具体我没有测试,你可以试试,原理一样。
2、部分文件格式不支持。
已知 .flv、.rmvb 等视频格式不支持,可以用 FFmpeg,把它转换为 .mp4 或者 .mp3 即可。
3、超长音频/视频,可能会出现字幕重复的问题。
可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。
与此同时,阿里的开源语音识别工具 FunASR,把国产「语音识别」带到了前所未有的高度。
4.1、CapsWriter
Whisper 支持超过 109 种语言。
但就中文来说,阿里推出的开源项目 FunASR,不但准,而且速度极快,堪称“地表最快”。
30 分钟的音频,转录只需要 15 秒,是 15 秒 啊!
因为是纯手工标注,因为 FunASR 的“中英文”识别准确率也非常高。
在 FunASR 的基础上,网友 HaujetZhao 开发了 CapsWriter Offline,使用更加简单了。
4.2、奶酪配置包
考虑到使用上的便捷性,奶酪在 CapsWriter 的基础上整合了 CLI 版本:CapsWriterCli。
你需要做的,也是点击一次 “开始.bat”,然后就可以一键使用了。
奶酪的 CapsWritherCli 分成了两个版本。
标准版:只有语音识别功能,速度极快,加载模型只需要 3 秒。
完整版:语音识别+自动标点,第一次加载模型需要 30 秒左右。
下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘、Huang111网盘
4.3、使用方法
之后,你可以选择单个文件、多个文件、又或者文件夹,转录后文件,会保存在原文件旁边。
需要注意的是:
1、CapWriterCli 只支持中、英两种语言。
2、在使用 CapWriterCli_Full 完整版时,第一次加载模型大概需要 30 秒,后续将不再需要。
3、然后,你还需要「再次」在右键菜单里,调用一键转录。
还需要注意的是,
如果你先使用了 CapWriterCli 极速版,要切换到 CapWriterCli_Full 完整版时.
你需要在“任务管理器”里,先关闭运行中的 start_server.exe 进程。
然后再开启 CapWriterCli 完整版。
4.4、下载并转录
同样,如果你需要一键转录网上的视频。
使用“奶酪浏览器”,配置好 “视频一键下载” 项目后,在浏览器右键菜单里选择“阿里语音转录”。
就会先下载该视频,然后自动调用 CapsWriterCli 来一键转录,全程自动!
奶酪系列浏览器,均已支持。
需要注意的是,
你需要在扩展 ContextSearch web-ext 里修改你的 CapsWriterCli 实际路径,一共有两处。
同时,CapsWriterCli_Full 完整版的菜单,默认是隐藏的,你需要手动打开。
如果你没有使用“奶酪浏览器”,可以导入扩展 ContextSearch web-ext 的奶酪配置。
下载地址:https://www.lanzouh.com/b07nx1b4f
4.5、常见问题
需要强调的是。
如果只要文字内容,使用 CapWriterCli 极速版 已经足够。
如果需要转录的内容带有“标点符号”,则需要使用 CapWriterCli_Full 完整版。
第一次加载标点模型,大概需要 30 秒,后续将不再需要。
然后,你需要「再次」在右键菜单里,调用一键转录。
如果你无法安装,又或者配置不够,奶酪还准备了“在线转录”的版本,同样“全自动一键转录”。
5.1、B 站转录
原理是调用 byylook 进行一键转录,右键菜单里点击运行后,全程自动,期间不需要任何操作。
5.2、抖音转录
原理也是调用 byylook 进行一键转录,就是在右键点击菜单时,需要在左上角的 X 按钮处点击。
5.3、U2B 转录
原理是调用 HuggingFace 进行转录,如果没有自动提交任务,则需要手动点一下 Submit 按钮。
5.4、在线转录
当然,也还有很多其它免费的“在线转录”应用,不过就是需要手动上传音频或者视频文件。
在线转录 | 简介 |
---|---|
Byylook | 免登录、在线视频一键转录,支持 B 站 和 抖音。 |
Whisper Jax | 免登录、在线视频一键转录,支持 U2B。 |
帮小忙 | 免登录、需要手动上传。 |
Whisper Turbo | 免登录、需要手动上传。 |
Whisper Turbo 2 | 免登录、需要手动上传。 |
飞书妙记 | 要登录、需要手动上传,免费额度基本够用。 |
通义听悟 | 要登录、需要手动上传,免费额度基本够用,支持浏览器浏览。 |
最后
- 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 i01 就可获取对应的资源。
- 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
- 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。
请问奶酪,选中一堆文件右键发送时,所有文件会同时发送,如果文件比较多的话会报错,最终大概只有5个文件可以完成,能否设定成一个一个排队来,或者给个参数设置每次并行处理的数量?
谢谢
我本來開心了一下 可以即時翻譯 用了M3U 跑了 他國直播 恩 怎麼還是那躲菊花在運作 感謝妳的分享 新版本的 逐字稿變好快 (來改成繁體使用了)
我用的原版,会生成4个文件
没有加入VAD模型??funasr例子里面有4个模型,,这里只用了2个,识别效果差一些,而且导出的srt没有标点,txt例是有标点
酪大分享的软件识别精度令我满意,想问下酪大有没有比较便宜,可以区分发言人的语音识别呀,像科大讯飞那样的。做会议纪要的时候比较方便
阿里的funasr不推下?
推荐一个好用的语音转文字,用了好几个月了一直在用。特别是在跟 AI 对话的时候,打字的效率一下高了非常多
https://github.com/HaujetZhao/CapsWriter-Offline/
Win7x64运行报错[
Get-ChildItem:找不到与参数名称“File”匹配的参数。
所在位置 行:1 字符:125
+ .\main.exe -m .\models\ggml-large.bin -l zh……NamedparameterNotFound]
Win10正常。
测试音频文件没有问题,但测试了一个200多兆的视频文件,然后跑了五分钟后不动了,放了一个晚上还是没有出结果。
奶酪,想问一下下载完FFmpeg之后要对他进行什么。还有mac端的环境变量哪一步不是很明白。谢谢