奔跑中的奶酪

全网首发,没有比之更快的语音识别方法!

全网首发,没有比之更快的语音识别方法!

 

许多年以后,坐在电脑前的奶酪,一定会想起年轻时自己手敲字幕敲到手抽筋的那个下午。

如何将 200G 的视频,压缩为 20M 的文字,如何提取视频里说话人的台词,

如何将视频会议转录为文字,如何一键语音转文字。

今天,它们都成为了现实!

1.1、命令行软件

在上一篇文章《A24 - 语音识别》里,奶酪介绍了软件一些语音识别软件,它们都很好用。

那为什么还要开一个新项目呢?因为“命令行软件”更方便。

我们电脑里的大多数软件,是“图形化软件”。

比如 Word、Excel、Photoshop,它们的一大特点是「所见即所得」。

软件的所有内容,都放在我们眼前,只需要用鼠标点几下,就能完成任务,上手非常容易

i57_命令行软件

还有一种软件,叫“命令行软件”。

它的特点是「所想即所得」,可以将我们大脑里想的内容「逻辑文本化」。

通过不同的命令组合,可以实现任务的批处理和自动化,因此命令行软件的上手难度也较大。

可一旦你掌握以后,你在这上面花费的时间,将无限趋近于零

1.2、极简安装

下面是本文内容的极简安装流程,没有 What,没有 Why,只有 How。

 一键语音识别 - 详细

 Win 版 Whisper 简介
1、下载 奶酪配置包 下载地址,只保留了 Turbo 版一个版本。[]
2、点击 开始.bat 点击运行,可能需要用“管理员身份”。
3、右键 “发送到” 即可右键一键转录。
 Mac 版 Whisper 简介
1、安装 Vibe 下载地址,安装后,移动 Turbo 模型文件到指定文件夹。[]
2、下载 奶酪配置包 下载地址,选择 使用 Whisper 转录.workflow.zip。[]
3、右键 “快速操作” 即可一键转录。
 阿里转录 简介
0、分为两个版本 CapsWriterCli 极速版、CapsWriterCli_Full 完整标点版。
1、下载 奶酪配置包 下载地址,选择 CapsWriterCli.7zCapsWriterCli_Full.7z。[]
2、点击 开始.bat 可能需要用“管理员身份”运动。
3、右键 “发送到” 即可右键一键转录。
4、Full 完整版 第一次加载模型需要 30 秒,后续将不再需要,请再次右键调用。
 在线转录 简介
 奶酪浏览器 使用“奶酪系列浏览器”,可一键在线转录,全程自动。
 Byylook 免登录、在线视频一键转录,支持 B 站 和 抖音。
 Whisper Jax 免登录、在线视频一键转录,支持 U2B。
 帮小忙 免登录、需要手动上传。
 Whisper Turbo 免登录、需要手动上传。
 Whisper Turbo 2 免登录、需要手动上传。
 飞书妙记 要登录、需要手动上传,免费额度基本够用。
 通义听悟 要登录、需要手动上传,免费额度基本够用,支持浏览器浏览。

1.3、工具选择

这么多转录工具,我要怎么选择?由于 CapsWriter 只支持中英文Whisper 支持 100 种语言。

所以,结论就是。

• 最快中文转录:CapsWriterCli
• 最快英文转录:CapsWriterCli
• 最快多语言转录:WhisperCli

• 最佳中文转录:CapsWriterCli_Full
• 最佳英文转录:WhisperCli
• 最佳多语言转录:WhisperCli
• 最佳转录并翻译:WhisperCli

1.4、结尾

奶酪的这个项目,已经更新了多个版本,久经考验,它就是目前的最快语音转文字,没有之一。

也许,你现在还感觉不到它的好。

但随着大家电脑性能越来越好,奶酪的配置包一定会火。

它也一定会成为了你装机必备。

上面的内容还只是“前戏”,真正的“爽点”,是接下来“一键识别”的操作实现。

2.1、Whisper.cpp

2022 年,OpenAI 发布了 Whisper 语音识别模型,支持 99 种语言。

但 Whisper 的速度较慢,于是有位叫 ggerganov 的网友用 C/C++ 重新编译了 Whisper.cpp

它不但支持所有平台,相比原版 Whisper,速度更是快了 4-45 倍。

支持核显、支持独显、ARM 芯片也同样支持。

A25_WhisperCli

而不久前,OpenAI 还发布了 Large V3 模型的 Turbo 版本,在同等效果下,速度快了 8 倍。

即使在一般的电脑,也能用上 Whisper 的最顶级模型了。

Whisper 真正开始走向平民化

2.2、奶酪配置包

但是,到了这一步,要使用还是太麻烦了,因为还只是个“毛坯房”。

于是,奶酪在 WhisperDesktop 的基础上进行了配置包整合,现在,你可以直接“拎包入住”。

奶酪的 Whisper 配置包,可以说是目前最快的 Whipser 部署方法,没有之一。

你需要做的,就只是点击一下“开始.bat”。

A25_WhisperCli4

实际测试:

我用的是 AMD R7 7735HS 核显,一个 2:30 秒的文件,Large V3 Turbo 模型用了不到 40 秒

而如果用 4060 显卡,也就是5 秒钟的事。

A25_WhisperCli8

PS:新版本的奶酪配置包,只保留了 Turbo 模型一个版本,配置包总大小 1.32G

下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘Huang111网盘

2.3、使用方法

首先,下载压缩包,解压到任意位置。

接着,点击“开始.bat”,Whisper “语音识别”的一键操作,就会自动添加到右键的“发送到”菜单。

从此,你的电脑从此就拥有了“离线语音一键识别”功能。

最后,选择任意单个文件、多个文件,又或者文件夹,即可进行一键或批量转录。

生成的转录文件,默认会保存在“原文件”所在目录。

A25_WhisperCli7

默认只添加了“中文”和“英语”两个独立的菜单。

需要转录其它语言,可以点击第三个选项“语音转录_语言选择”进行选择,然后输入语言编号。

Whisper 支持超过 100 种语言。

A25_WhisperCli9

常用编码:1 简体中文、2 德语、3 西语、4 俄语、5 韩语、6 法语、7 日语、8 葡语、99 粤语...

输入 all,则可以查看支持的所有语言,

直接回车,则默认选择 100 繁体中文

2.4、下载并转录

如果你需要一键转录网上的视频。

使用“奶酪浏览器”,配置好 “视频一键下载” 项目后,在浏览器右键菜单里选择“一键语音转录”。

就会先下载该视频,然后自动调用 Whisper 来一键转录,全程自动!

奶酪系列浏览器,均已支持。

A25_WhisperCli10

需要注意的是,

你需要在扩展 ContextSearch web-ext 里修改你的 WhisperCli 实际路径,一共有两处要修改。

否则无法一键下载及转录。

A25_WhisperCli11

如果你没有使用“奶酪浏览器”,可以导入扩展 ContextSearch web-ext 的奶酪配置。

下载地址:https://www.lanzouh.com/b07nx1b4f

2.5、常见问题

1、不支持 2012 年以前的 CPU。

支持 Win 7 系统,但模型渲染需要 F16C 指令集,因此不支持 2012 年以前生产的 CPU。

2、部分文件格式不支持。

已知 .flv、.rmvb 等视频格式不支持,可以用 FFmpeg,把它转换为 .mp4 或者 .mp3 即可。

3、超长音频/视频,可能会出现字幕重复的问题

可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。

脚本下载:https://www.runningcheese.com/ffmpeg

A25_常见问题

Mac 能不能也实现类似 Windows 那样的一键语音识别呢?能!而且思路也大致相同。

3.1、Vibe

Mac 平台下也有一款基于 Whisper.cpp 的应用程序,叫 Vibe

支持 IntelARM 芯片,而且解决了 Mac 下 Whisper 调用 GPU 的问题,转录速度大为提升。

同时,它还是目前少数完全免费的 Whisper.cpp 应用。

A25_Vibe01

安装方法:

首先,安装 Vibe

安装后,下载最新的 Large-V3-Turbo 模型文件,放在 Vibe 的“模型文件夹”里。

A25_Vibe02

下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘Huang111网盘

3.2、奶酪配置包

Vibe 是一款基于 Whisper.cpp 的图形化应用,但同时它也支持“命令行”的运行方法。

因此,它也是可以实现类似 Windows 下的一键操作。

具体方法是通过“Automator 自动操作”来实现,首先是打开“自动操作”,新建一个“快捷操作”。

输入以下代码:

A25_Vibe03

不想操作也没关系。

奶酪已经把脚本准备好了,只需要双击安装,脚本就会自动存放在 ~/Library/Services 下。

A25_Vibe04

下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘Huang111网盘

3.3、使用方法

之后,选择任意单个文件、多个文件,又或者文件夹

在右键菜单里的“快速操作”,选择“使用 Whisper 转录” 即可一键调用转录。

A25_WAC7

要设置“快速操作”菜单的显示内容,你可以在“设置—>隐私与安全性—>扩展—>访达”里修改。

A25_WAC5

3.4、下载并转录

同样,如果你需要一键转录网上的视频。

使用“奶酪浏览器”,配置好 “视频一键下载” 项目后,在浏览器右键菜单里选择“一键语音转录”。

就会先下载该视频,然后自动调用 Whisper 来一键转录,全程自动!

奶酪系列浏览器,均已支持。

A25_Vibe07

需要注意的是,

如果你没有使用奶酪浏览器,则需要安装扩展 ContextSearch web-ext,导入奶酪配置即可。

下载地址:https://www.lanzouh.com/b07o0cwfg

A25_Vibe08

3.5、常见问题

1、也支持 Intel CPU。

支持 ARM 芯片,也支持 2019 年前 Intel 芯片,具体我没有测试,你可以试试,原理一样。

2、部分文件格式不支持。

已知 .flv、.rmvb 等视频格式不支持,可以用 FFmpeg,把它转换为 .mp4 或者 .mp3 即可。

3、超长音频/视频,可能会出现字幕重复的问题

可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。

脚本下载:https://www.runningcheese.com/ffmpeg

与此同时,阿里的开源语音识别工具 FunASR,把国产「语音识别」带到了前所未有的高度。

4.1、CapsWriter

Whisper 支持超过 109 种语言。

但就中文来说,阿里推出的开源项目 FunASR,不但准,而且速度极快,堪称“地表最快”。

30 分钟的音频,转录只需要 15 秒,是 15 秒 啊!

因为是纯手工标注,因为 FunASR 的“中英文”识别准确率也非常高。

在 FunASR 的基础上,网友 HaujetZhao 开发了 CapsWriter Offline,使用更加简单了。

A25_CapsWriter

4.2、奶酪配置包

考虑到使用上的便捷性,奶酪在 CapsWriter 的基础上整合了 CLI 版本:CapsWriterCli

你需要做的,也是点击一次 “开始.bat”,然后就可以一键使用了。

A25_CapsWriter5

奶酪的 CapsWritherCli 分成了两个版本。

标准版:只有语音识别功能,速度极快,加载模型只需要 3 秒。

完整版:语音识别+自动标点,第一次加载模型需要 30 秒左右。

A25_CapsWriter4

下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
备用地址:123网盘Huang111网盘

4.3、使用方法

之后,你可以选择单个文件、多个文件、又或者文件夹,转录后文件,会保存在原文件旁边

A25_CapsWriter2

需要注意的是

1、CapWriterCli 只支持中、英两种语言。

2、在使用 CapWriterCli_Full 完整版时,第一次加载模型大概需要 30 秒,后续将不再需要

3、然后,你还需要「再次」在右键菜单里,调用一键转录。

A25_CapsWriter3

还需要注意的是

如果你先使用了 CapWriterCli 极速版,要切换到 CapWriterCli_Full 完整版时.

你需要在“任务管理器”里,先关闭运行中的 start_server.exe 进程。

然后再开启 CapWriterCli 完整版

4.4、下载并转录

同样,如果你需要一键转录网上的视频。

使用“奶酪浏览器”,配置好 “视频一键下载” 项目后,在浏览器右键菜单里选择“阿里语音转录”。

就会先下载该视频,然后自动调用 CapsWriterCli 来一键转录,全程自动!

奶酪系列浏览器,均已支持。

A25_CapsWriter6

需要注意的是,

你需要在扩展 ContextSearch web-ext 里修改你的 CapsWriterCli 实际路径,一共有两处

同时,CapsWriterCli_Full 完整版的菜单,默认是隐藏的,你需要手动打开。

A25_CapsWriter7

如果你没有使用“奶酪浏览器”,可以导入扩展 ContextSearch web-ext 的奶酪配置。

下载地址:https://www.lanzouh.com/b07nx1b4f

4.5、常见问题

需要强调的是。

如果只要文字内容,使用 CapWriterCli 极速版 已经足够。

如果需要转录的内容带有“标点符号”,则需要使用 CapWriterCli_Full 完整版

第一次加载标点模型,大概需要 30 秒,后续将不再需要

然后,你需要「再次」在右键菜单里,调用一键转录。

如果你无法安装,又或者配置不够,奶酪还准备了“在线转录”的版本,同样“全自动一键转录”

5.1、B 站转录

原理是调用 byylook 进行一键转录,右键菜单里点击运行后,全程自动,期间不需要任何操作。

A25_在线转录

5.2、抖音转录

原理也是调用 byylook 进行一键转录,就是在右键点击菜单时,需要在左上角的 X 按钮处点击。

A25_在线转录2

5.3、U2B 转录

原理是调用 HuggingFace 进行转录,如果没有自动提交任务,则需要手动点一下 Submit 按钮。

A25_在线转录3

5.4、在线转录

当然,也还有很多其它免费的“在线转录”应用,不过就是需要手动上传音频或者视频文件。

在线转录 简介
Byylook 免登录、在线视频一键转录,支持 B 站 和 抖音。
Whisper Jax 免登录、在线视频一键转录,支持 U2B。
帮小忙 免登录、需要手动上传。
Whisper Turbo 免登录、需要手动上传。
Whisper Turbo 2 免登录、需要手动上传。
飞书妙记 要登录、需要手动上传,免费额度基本够用。
通义听悟 要登录、需要手动上传,免费额度基本够用,支持浏览器浏览。



最后

  1. 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 i01 就可获取对应的资源。
  2. 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
  3. 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。
版权声明:本文由作者 奔跑中的奶酪 发布,版权归作者所有,如需转载,请署名作者并标记内容来源。
208
avataravatar

评论:

10 条评论,访客:0 条,站长:0 条
  1. Vincent
    Vincent发布于: 

    请问奶酪,选中一堆文件右键发送时,所有文件会同时发送,如果文件比较多的话会报错,最终大概只有5个文件可以完成,能否设定成一个一个排队来,或者给个参数设置每次并行处理的数量?
    谢谢

  2. curly
    curly发布于: 

    我本來開心了一下 可以即時翻譯 用了M3U 跑了 他國直播 恩 怎麼還是那躲菊花在運作 感謝妳的分享 新版本的 逐字稿變好快 (來改成繁體使用了)

  3. a山
    a山发布于: 

    我用的原版,会生成4个文件

  4. da
    da发布于: 

    没有加入VAD模型??funasr例子里面有4个模型,,这里只用了2个,识别效果差一些,而且导出的srt没有标点,txt例是有标点

  5. avatar
    James发布于: 

    酪大分享的软件识别精度令我满意,想问下酪大有没有比较便宜,可以区分发言人的语音识别呀,像科大讯飞那样的。做会议纪要的时候比较方便

  6. 马云
    马云发布于: 

    阿里的funasr不推下?

  7. StK
    StK发布于: 

    Win7x64运行报错[
    Get-ChildItem:找不到与参数名称“File”匹配的参数。
    所在位置 行:1 字符:125
    + .\main.exe -m .\models\ggml-large.bin -l zh……NamedparameterNotFound]
    Win10正常。

  8. cd哥
    cd哥发布于: 

    测试音频文件没有问题,但测试了一个200多兆的视频文件,然后跑了五分钟后不动了,放了一个晚上还是没有出结果。

  9. 南山
    南山发布于: 

    奶酪,想问一下下载完FFmpeg之后要对他进行什么。还有mac端的环境变量哪一步不是很明白。谢谢

发表回复