5 分钟,看完没有人比你更懂“语音识别”!( 二 )


5 分钟,看完没有人比你更懂“语音识别”!

文章插图
地址:
在速度方面 。
为应对不同的语音转录需求, 推出了 tiny、base、small、、large 5 个档次的模型 。
转录效果依次增加,但相应花费的时间也会增加 。
3.2、使用方法
使用了开发,安装后,在文件所在目录打开终端,运行audio.mp3 即可进行转录 。
想要自定义设置的话,则可以在后面追加命令参数,具体包括:
audio.mp3 --命令参数
--task
指定转录方式,默认使用 --task转录模式,--task则为翻译模式,目前只支持英文 。
--model
指定使用模型,默认使用 --model small, 还有英文专用模型,就是在名称后加上 .en,这样速度更快 。
--
指定转录语言,默认会截取 30 秒来判断语种,但最好指定为某种语言,比如指定中文是 --。
--
指定硬件加速,默认使用 auto 自动选择,-- cuda 则为显卡,cpu 就是 CPU, mps 为苹果 M1 芯片 。
3.3、
如果使用命令行这种形式,门槛太高了,那么图形化软件会是一个简单的方案 。
地址:
使用方法分为两步:下载软件 + 载入模型 。
下载后,点击运行,然后加载模型文件,最后选择文件即可进行转录 。
由于支持 GPU 硬解,转录速度非常的快,我测试了一个 2 分钟的视频,使用模型,花费不到 20 秒 。
PS:具体还得看显卡的性能 。
3.4、Buzz
另一款基于的图形化软件是 Buzz,相比 ,Buzz 支持 、macOS、Linux 。
官方地址:
使用方法也是:安装软件 + 下载模型 。
Buzz 的安装包体积稍大,同时 Buzz 使用的是 .pt 后缀名的模型文件,运行后软件会自动下载模型文件 。
但最好是提前下好模型文件,然后放在指定的位置 。
Mac:~/.cache/
:C:\Users\\.cache\
但 Buzz 使用的是 CPU 软解 ,目前还不支持 GPU 硬解。
同样一个 2 分钟的视频,使用模型,耗时花费了 2 分 30 秒,比例大概 1:1.2,花费时间还是挺长的 。
四、语音识别对比
下面我们对飞书妙记、剪映、 这三款语音识别工具进行一下对比 。
4.1、准确性对比
就准确性而言 。
三款产品里,飞书和剪映在中文识别上的效果更好,大体与的 large 模型相当 。
飞书妙记甚至还有标点符号、文章分段、智能纠错等功能,在测试中,飞书也是唯一个能正确转录“谷爱凌”的 。
原因是联网转录,“云词库”会自动选择更符合上下文的同音词 。
的音频数据只有 1/3 来自非英语,在准确性方面, 对英文的识别错误率为 4.2,中文则为 14.7 。
如果转录的内容是英文,那么用 samll 模型就能保证绝大多数正确 。
而如果转录的内容是中文,那么至少要用模型,才能保证绝大多数正确 。
强在多语言支持,还有超高的英语识别率 。
4.2、速度对比
5 分钟,看完没有人比你更懂“语音识别”!

文章插图
在转录速度方面 。
飞书妙记和剪映都需要联网上传,其中剪映的速度最快,而的转录速度,极度依赖显卡的加持 。
下面是使用显卡加速,同一段 10 分钟视频的速度对比 。
五、语音识别技巧
而无论怎样,任何一款语音识别工具都没办法保证 100% 准确,我们还需要有一定的技巧 。
5.1、纯净输入
如果转录的是歌曲,又或者有嘈音,背景音乐很大,使用人声分离工具,突出人声,那么识别效果将大大提高 。
这样的工具很多,可以选择在线应用,也可以选择免费开源的 UVR5 。