有道词典在线翻译下载 有道翻译在线翻译

机器之心报道
作者:泽南
完全不懂外语的你也可以拿起手机,和老外直接对话了:甚至不需要选择彼此说着的是什么语言 。
遇到看不懂的单词时,很多人会想到打开网易有道词典 app 查询 。最近使用这个 app 的同学,可能会注意到一个新增的功能:

有道词典在线翻译下载 有道翻译在线翻译

文章插图
【有道词典在线翻译下载 有道翻译在线翻译】有道词典的「对话翻译」功能,现在可以自动检测语言了 。
除了自动识别语种,有道词典还可以实现近乎实时的「同声传译」,延迟不到一秒,而且在大多数 iOS 或安卓的智能手机上都可以实现 。有了这样的技术,两个说着不同语言的人,只需要一个安装了有道词典 app 的手机,就可以进行实时顺畅的对话交流了 。
这种神奇的功能,现在支持 11 个语种互相翻译,这就意味着可以覆盖全球超过一半的人口(有道词典手动选择语言互译的话,则支持 44 种语言) 。
语音识别语种,用的是图像识别模型
让手机快速自动识别语种,看起来是一个简单的小功能,却大幅度提升了使用的便捷性 。在这背后,研发团队投入的工作也是个有趣的故事 。
目前人们每天使用的机器翻译软件中的语音翻译,一般都遵循着类似的工作流程:人口中说出的话,经过语音识别(ASR)系统转换成文字,再通过神经机器翻译模型(NMT)转换为目标语言,最后再通过语音合成(TTS)系统转换成目标语言的语音才算完成 。
有道词典在线翻译下载 有道翻译在线翻译

文章插图
语音翻译的级联模型(图片来自 MSRA) 。
这样一套自动流程也有手动的步骤——需要预先由使用者选好转换语言的类型 。有道新上线的功能直接省去了这一步骤:通过在整个级联流程的最前端加入语音活性检测(VAD)和自动语音识别技术(LID),现在你在不用切换翻译种类的情况下,就能和人即时展开对话了 。
有意思的是,有道识别语音的 LID 模型,源自在图像识别领域大放异彩的 ResNet(残差神经网络) 。在人工智能业内,这是一个「你必须要知道的模型」,ResNet 曾大幅刷新了 ImageNet 竞赛的记录,并启发了众多计算机视觉的新方法,但在语音领域,用 ResNet 的落地技术还比较新鲜 。
为了让擅长识别图像的 AI 模型能够处理语音内容,有道开发者们对原模型进行了特殊的修改和配置 。在有道词典使用的 LID 方法中,图像 RGB 的三通道输入被修改为语音的单通道,神经网络模型也被压缩到了仅有 2Mb 大小,让其可以在离线状态下识别语种 。
「另外,图片输入到神经网络中时通常是固定的尺寸,但语音识别领域中,我们经常遇到的是长短不一的内容,」这一新功能的主要贡献者,有道 AI 语音算法工程师王海魏表示 。「我们认为让 ResNet 识别不同大小的内容是可行的方案,因此对模型进行了修改,也获得了成功 。」
在有道词典 app 上,翻译对话时语音识别的内容呈现流式过程,随着说话人输入内容的增加,机器判断准确度也在不断提高 。当「置信度」到达阈值时,系统就会开始调用随后的流程开启翻译,而有道 LID 给到的语种自动识别最快可以在 0.5 秒给出结果 。
有道词典在线翻译下载 有道翻译在线翻译

文章插图
由手机端侧 AI 模型启动的过程既解决了翻译准确度的问题,也优化了翻译系统的反应速度 。
让手机自动识别语言的原理并不复杂,在目前的应用市场上,iPhone 在最新的 iOS 14 系统中使用了类似的技术 。从效果上来看,对于带口音的对话内容,有道的识别效果要好一些 。
有道词典在线翻译下载 有道翻译在线翻译

文章插图
有道词典 app(左)和 iPhone iOS 14 系统(右)的对话翻译对比 。在中文语境下,有道词典给出的结果要更好 。
这还是在有道词典覆盖了用户基数更大、机型众多的安卓系统的情形下实现的 。
AI 技术落地,没有想象那么简单
「一项技术的真正落地和参与数据竞赛、写论文会遭遇到的挑战完全不同,有时甚至更难,」有道 AI 语音团队负责人李庆说道 。
有道的工程师们去年曾经参加了中国计算机学会、西北工业大学、上海交通大学、新加坡南洋理工大学等多家机构联合举办的 INTERSPEECH2020「口音英语语音识别技术挑战赛」 。刚刚从学校毕业加入有道的吴昊、王海魏等人,仅准备了十天时间就在口音种类识别和英语语音识别两个赛道上获得了第二名、第三名的好成绩 。