5 分钟，看完没有人比你更懂“语音识别”！( 二 ) _视频

文章插图
地址：
在速度方面。
为应对不同的语音转录需求，推出了 tiny、base、small、、large 5 个档次的模型。
转录效果依次增加，但相应花费的时间也会增加。
3.2、使用方法
使用了开发，安装后，在文件所在目录打开终端，运行audio.mp3 即可进行转录。
想要自定义设置的话，则可以在后面追加命令参数，具体包括：
audio.mp3 --命令参数
--task
指定转录方式，默认使用 --task转录模式，--task则为翻译模式，目前只支持英文。
--model
指定使用模型，默认使用 --model small，还有英文专用模型，就是在名称后加上 .en，这样速度更快。
--
指定转录语言，默认会截取 30 秒来判断语种，但最好指定为某种语言，比如指定中文是 --。
--
指定硬件加速，默认使用 auto 自动选择，-- cuda 则为显卡，cpu 就是 CPU， mps 为苹果 M1 芯片。
3.3、
如果使用命令行这种形式，门槛太高了，那么图形化软件会是一个简单的方案。
地址：
使用方法分为两步：下载软件 + 载入模型。
下载后，点击运行，然后加载模型文件，最后选择文件即可进行转录。
由于支持 GPU 硬解，转录速度非常的快，我测试了一个 2 分钟的视频，使用模型，花费不到 20 秒。
PS：具体还得看显卡的性能。
3.4、Buzz
另一款基于的图形化软件是 Buzz，相比，Buzz 支持、macOS、Linux 。
官方地址：
使用方法也是：安装软件 + 下载模型。
Buzz 的安装包体积稍大，同时 Buzz 使用的是 .pt 后缀名的模型文件，运行后软件会自动下载模型文件。
但最好是提前下好模型文件，然后放在指定的位置。
Mac：~/.cache/
：C:\Users\\.cache\
但 Buzz 使用的是 CPU 软解，目前还不支持 GPU 硬解。
同样一个 2 分钟的视频，使用模型，耗时花费了 2 分 30 秒，比例大概 1:1.2，花费时间还是挺长的。
四、语音识别对比
下面我们对飞书妙记、剪映、这三款语音识别工具进行一下对比。
4.1、准确性对比
就准确性而言。
三款产品里，飞书和剪映在中文识别上的效果更好，大体与的 large 模型相当。
飞书妙记甚至还有标点符号、文章分段、智能纠错等功能，在测试中，飞书也是唯一个能正确转录“谷爱凌”的。
原因是联网转录，“云词库”会自动选择更符合上下文的同音词。
的音频数据只有 1/3 来自非英语，在准确性方面，对英文的识别错误率为 4.2，中文则为 14.7 。
如果转录的内容是英文，那么用 samll 模型就能保证绝大多数正确。
而如果转录的内容是中文，那么至少要用模型，才能保证绝大多数正确。
强在多语言支持，还有超高的英语识别率。
4.2、速度对比

文章插图
在转录速度方面。
飞书妙记和剪映都需要联网上传，其中剪映的速度最快，而的转录速度，极度依赖显卡的加持。
下面是使用显卡加速，同一段 10 分钟视频的速度对比。
五、语音识别技巧
而无论怎样，任何一款语音识别工具都没办法保证 100% 准确，我们还需要有一定的技巧。
5.1、纯净输入
如果转录的是歌曲，又或者有嘈音，背景音乐很大，使用人声分离工具，突出人声，那么识别效果将大大提高。
这样的工具很多，可以选择在线应用，也可以选择免费开源的 UVR5 。