骚操作!这真的是免费就能用的“同声传译”吗?
视频和语音转文本,现在可以说是信手拈来了,看过《A25-语音一键转录》,你一定深以为然。
但如果是“实时转录”呢?比如将会议、直播的内容「实时地」转为文字。
甚至还得是“同声传译”,边看边翻译。
今天的内容,将统统为你解答!
1.1、功能需求
有人说直接用 Chrome 浏览器可以实现啊!我说你不妨把“格局打开一些”,我要的效果是:
在线视频无需下载、本地视频无需上传、还要支持实时转录、同声传译、字幕导出。
并且,它还得支持所有的应用程序,不能只限制于某个浏览器。
同时,我还想要“离线使用”,因为我当心隐私的问题。
当然,最重要的,还得是“免费”。
不然再好也是白搭。
1.2、原理说明
要实现上述的诸多需求,最关键的一步,是解决“音频输入”的问题。
我们之前讲过的 Whisper 和 FunASR,它们本身就支持语音输入,也就是支持“麦克风输入”。
问题就在这里!有没有办法,让电脑的扬声器来“代替”麦克风?
就像我们会虚拟一个打印机,来将内容打印输出为 PDF 一样,我们也可以虚拟出一个麦克风。
来让电脑播放中的声音,来代替实际的麦克风。
这样就实现了“实时转录”。
1.3、极简清单
同声传译 - 详细 |
|
---|---|
项目说明 | 简介 |
功能需求 1 | 在线视频无需下载、本地视频无需上传。 |
功能需求 2 | 实时转录、同声传译、字幕导出、离线转录、支持所有应用、且免费。 |
原理说明 | 虚拟一个麦克风,让电脑的扬声器来“代替”麦克风。 |
Win 转录 | 简介 |
1、VB Cable | 地址:https://vb-audio.com/Cable/index.htm |
2、设置输出 | 将「声音」选项里的「输出」和「输入」都选择为 VB CABLE。 |
3、设置输入 | 打开“麦克风”的使用权限。 |
4、离线实时转录 | 使用 WhisperCli 配置包,参考文章《A25 - 语音一键转》 |
Mac 转录 | 简介 |
1、iShot Plugin | 地址:https://www.better365.cn/ishot/screenrecording.html |
2、创建多输出设备 | 打开系统应用里的「音频 MIDI 设置」进行设置。 |
3、输出和输入 | 在系统的“声音”选项里,要将“输出”修改为“多输出设备”。 |
4、离线实时转录 | 使用 CapsWriterCli 配置包,参考文章《A25 - 语音一键转》 |
同声传译 | 简介 |
骚操作 | 有了“音频虚拟插件”,让原来的不可能变成可能,比如“同声传译”。 |
通义听悟 | 支持语言:中、英、日、粤。 |
讯飞语音 | 支持语言:中、英、日、韩、俄。 |
谷歌翻译 | 支持语言:超过 100 种语言。 |
资源下载 | 简介 |
最后更新 | 2024-10-14,资源下载:[地址] |
完整内容 | 关注 奶酪公众号,回复关键字 2,即可一键获取公众号所有资源。 |
那要怎么才能让开源免费,并且可以离线使用的 Whisper,还有阿里 FunASR,支持实时转录?
2.1、VB Cable
Windows 下有一个知名的虚拟声卡软件叫 VB-CABLE,它可以给系统虚拟出一个麦克风来。
安装方法很简单,安装后重启一下电脑就行。
地址:https://vb-audio.com/Cable/index.htm
2.2、设置输出
接下来的步骤就很关键了。
首先,打开系统设置里的「系统 —> 声音」,点击「更多声音设置」呼出完整设置选项。
在「录制」一栏里,点击 VB CABLE 的属性,选择「侦听」。
之后勾选侦听你的「系统扬声器」。
同时,将「声音」选项里的「输出」和「输入」都选择为 VB CABLE。
输入,选择 CABLE Input,输出,选择 CABLE Output。
这里的作用,是“劫持”系统扬声器。
2.3、设置输入
然后,就是打开“麦克风”的使用权限了,因为麦克风的功能,有可能处于关闭状态。
2.4、离线实时转录
最后,打开《A25 - 语音一键转》里的 CapsWriterCli 或者 CapsWriterCli_Full 完整版配置包。
需要注意的是:
1、首先运行 start_server.exe,等模型加载完毕后,再运行 start_client.exe。
2、CapsWriterCli_Full 完整版支持标点符号符号,第一次运行要 30 秒左右,后续将不再需要。
3、按下大写锁定键 Caps,就会开始转录,再次按下,则会停止转录。
4、在 start_server.exe 窗口,每 15 秒会显示一次转录结果。
5、功能选项,可以在文件 config.py 里设置。
不用担心转录的内容会不见了,软件默认会将文字内容自动保存根目录下,格式则为 md 格式。
下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
Mac 下也有类似操作,也可以将 Whisper,还有阿里 FunASR 也支持实时语音转录。
3.1、iShot Plugin
VB Cable 也支持 Mac 平台,但界面稍显老旧。
奶酪更推荐截图工具 iShot 的音频插件,原理一样,使用方法也一样,安装后需要重启电脑。
地址:https://www.better365.cn/ishot/screenrecording.html
如果你不需要这个音频插件了。
打开文件夹 /Library/Audio/Plug-Ins/HAL/,将里面的插件文件夹删除,重启后即可完全卸载。
下面是具体的使用方法。
3.2、创建多输出设备
首先,打开系统应用里的「音频 MIDI 设置」,这一步很关键。
然后,点击左下角的加号,选择“创建多输出设备”,勾选上系统扬声器,还有 iShot 音频插件。
这样做的目的,是为了将系统扬声器,复制一份给 iShot 音频插件。
不然会录制不到系统声音。
3.3、输出和输入
最后,在系统设置的“声音”选项里,将“输出”修改为刚刚设置的“多输出设备”。
而“输入”,则修改为“iShot 音频插件”。
3.4、离线实时转录
有了上面的操作,使用《A25 - 语音一键识别》里的配置包,就可以用 Vibe 来离线实时转录。
首先,在“麦克风”一栏选择“iShot 音频插件”。
然后,在“发言者”一栏选择“Speakers”。这里的“发言者”是翻译错误,本意应该是“扬声器”。
由于 Vibe 暂不支持实时显示转录内容,所以你需要先录音,然后再用 Vibe 转录。
别担心,录制的音频文件会自动保存的。
PS:如果录制的音频有杂声,则需要在系统设置的“声音”选项,将“输出”修改为“系统扬声器”。
下载地址:https://wh0vhr8391.feishu.cn/docx/R9qEdkbjsoprvZxe9HccxCznnae
有了“音频虚拟插件”,我们可以玩一些“骚操作”,让原来的不可能变成可能,比如“同声传译”。
4.1、通义听悟
目前国内能够免费使用的同声传译工具,当属“通义听悟”。
它不但提供了免费额度,而且几乎用不完(目前来说),再加上通义大模型的加持,更加智能。
在线地址:https://tingwu.aliyun.com/doc/record
有了这个“虚拟音频插件”,将本地播放的视频,转入到麦克风转入,任何生肉视频都不再烦恼。
如果不需要翻译,把它做为“实时转录”工具来用,也非常能帮大忙。
比如直播、开会时,可以将内容转换为文本。
支持语言:中、英、日、粤。
4.2、讯飞语音
国内另一家巨头“科大讯飞”,也同样有同声传译应用,而且它更加的豪横,无需登陆即可使用。
在线地址:https://huiji.iflyrec.com
使用方法与通义听悟一样,也是先设置“虚拟音频插件”,然后就可以直接同声传译本地视频了。
支持语言:中、英、日、韩、俄。
4.3、谷歌翻译
同时你需要同声传译是小语种,那可以使用“谷歌翻译”。
但在使用时需要先选择转录语言,不然麦克风功能无法激活,且目前只支持 Chrome 浏览器。
在线地址:https://translate.google.com
支持语言:支持超过 100 种语言。
最后
- 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 i01 就可获取对应的资源。
- 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
- 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。
奶大,需要用同声传译时,选择虚拟音频,是不是就听不到系统内的声音了?