ACL 2018 | TA-NMT:利用大语种语料,提升小语种神经机器翻译能力( 二 )


联合EM训练
其实在上面的推导中,我们发现,X→Y方向的训练中,也用到了Y→X才会更新的模型p(z|y);反之,在Y→X方向的训练中,也用到了X→Y才会更新的模型p(z|x) 。所以我们可以将两个方向结合起来,进行联合的迭代训练,从而可以同时优化四个小语种翻译模型 。其过程如下图所示,其中红框表示该步骤负责优化的翻译模型 。

ACL 2018 | TA-NMT:利用大语种语料,提升小语种神经机器翻译能力

文章插图
图3 联合EM训练过程
实验
我们的实验用到了和两个数据集,均采用英语和法语作为大语种 。在数据集中,我们采用阿拉伯语和西班牙语作为模拟的小语种;在IWSLT数据集中,我们采用罗马尼亚语和希伯来语作为真实场景的小语种 。
实验中,我们比较了两个模型,一个是经典的神经机器翻译模型,另外一个是-based统计机器翻译模型 。此外,我们还比较了两个 和back-两个模型 。由于TA-NMT中没有用到Z端的单语数据,所以我们将TA-NMT方法进行了进一步扩展,将back-训练的模型作为TA-NMT的初始模型,在此基础上进行进一步联合EM训练,我们称这个扩展方法为TA-NMT(GI) 。其中GI表示good。实验结果如下表所示:
可以看到,在没有引入Z 端单语数据的情况下,TA-NMT的性能高于、PBSMT、T-S 。在引入Z 端单语数据的情况下,TA-NMT(GI)的性能高于 。
同时,我们画出了英语-法语-阿拉伯语组和英语-法语-罗马尼亚语组的训练曲线 。下图中纵轴为相应验证集上的BLEU值,横轴为训练中的模型参数的更新次数 。可以看到,整个过程中,E步和M步中优化的两个模型性能均稳步上升 。
总结来说,我们提出的TA-NMT训练模型充分利用大语种语言对之间丰富的双语数据来提升小语种翻译模型的性能 。基本思路是在大语种之间的翻译过程中将小语种作为中间隐变量引入,将该翻译过程拆分为两个经由小语种的翻译过程,从而可以用EM方法进行优化 。同时我们提出了联合EM训练方法,可以同时对四个小语种翻译模型进行优化 。
参考文献:
Shuo Ren, Wenhu Chen,Liu, Mu Li, Ming Zhou, Shuai Ma,for rare, ACL 2018.
【ACL 2018 | TA-NMT:利用大语种语料,提升小语种神经机器翻译能力】论文链接: