5 分钟,看完没有人比你更懂“语音识别”!( 三 )


在线应用:
UVR5:
5.2、字幕翻译
有时转录出来的文本是繁体中文,又或者你想把字幕翻译为英语来做双语字幕 。
一个简单的方法,就是将字幕文件在浏览器中打开,使用自带的翻译功能,即可一键翻译为想要的语言 。
或者,你也可以选择更专业的字幕工具,比如Edit 。
地址:
当然,使用翻译工具会更加准确, 不过前提是你有的 API Key 。
地址:
5.3、标点符号
除了飞书外,其它转录工具都没有标点符号,而且也没有章节分段,如果你想把语音识别后的文本,保存为文章 。
一个简单的方法,是利用来重新排版,只需要前置输入“提示词”就可以了 。
具体是:“修复下面这段文章的标点符号并分成段落:” 。
需要注意的是,GPT-3.5 输出的最大限制是 777 个字符,所以每一次输入最好不要超过 777 个中文 。
但如果你用的是 GPT-4 的话,就没有这个限制 。
5.4、一键转录
如果我有大量的视频转文字,还有视频字幕生成需求,有没有办法一键转录?
有的!
奶酪研究出了一套方法,只需要一个 .bat 文件即可一键转录,具体我会在下期《A25 - 语音一键识别》中介绍 。
5.5、实时转录
除了转录视频,有没有办法实时转录直播或者播放中的视频?
当然也有!
我们同样可以利用来实现同声传译,具体我们在下下期《A28 - 同声传译》中再做介绍 。
结尾
发布的多语言语音识别模型,绝对算得上是一个“游戏改变者” 。
在可预见的未来 。
首先,语音识别将会彻底免费,并成为一项公共服务 。
其次,视频的语言屏障将会彻底打破,视频一键生成字幕,甚至自动生成字幕,已经成为现实 。
还有,视频也将转向文字化,一个 20GB 的视频内容,可以被压缩为 2MB 的文本内容,并且能全文索引 。
最后, 的入场,也会加速人工智能从单模态到多模态的发展 。
动动嘴皮就能拍出一部电影的魔幻场景,也正在发生!
强人工智能时代的我们,太幸福啦!
资源下载:
专栏介绍
本专栏「人工智能指南」致力于提高“人工智能领域”的姿势水平 。
特点是:“原创新鲜、系统连贯、给渔授渔” 。
力求一篇文章,讲清楚一个主题,争取每篇文章都是该主题下的 Top3,甚至 Top1 。
看完记得:
点赞,点赞是免费的,但却能激励我保持创作,还能帮助更多的人看到这篇文章 。