下载PDF 文本嵌入的经典模型与最新进展( 二 )


【下载PDF文本嵌入的经典模型与最新进展】最近一个强大的 Bag-of-Word 基线(甚至比 Arora 的基线更强)的实现是来自达姆施塔特大学的串联 p-mean 嵌入 , 它的地址是 。
的对话框袋的字 。Bag-of-Words 接近宽松的单词排序 , 但保留了惊人数量的语义和句法内容 。
来源:有趣的 ACL 2018论文 。
除了简单的平均 , 第一个主要的建议是使用无监督的训练目标 , 从 Jamie Kiros 和他的同事在 2015 年提出的 Skip- 向量开始 。
无监督方案将句子嵌入学习作为学习的副产品 , 以预测句子内连贯的句子顺序或句子中连贯的连续从句 。这些方法可以(理论上)使用任何文本数据集 , 只要它包含以连贯方式并列的句子/子句 。
Skip-向量()是学习无监督句子嵌入的典型例子 。它可以作为为词嵌入而开发的 skip-gram 模型的句子等价物:我们试着预测一个句子的周围句子 , 而不是预测单词周围的单词 。该模型由基于 RNN 的编码器 – 解码器组成 , 该解码器被训练用于重构当前句子周围的句子 。
Skip-论文中有一个有趣的见解是词汇扩展方案:Kiros 等人在训练过程中 , 通过在 RNN 词嵌入空间和一个更大的词嵌入(如)之间进行线性变换 , 来处理未见过的单词 。
Quick-向量()是今年在 ICLR 上发布的 Skip- 向量的最新发展 。在这项工作中 , 预测下一句话的任务被重新定义为一个分类任务:解码器被一个分类器所取代 , 该分类器必须在一组候选者中选择下一句 。它可以被解释为对生成问题的一种判别近似 。
该模型的一个优势是其训练速度(与 Skip- 模型相比有数量级的提升)使其成为开发大量数据集的有竞争力的解决方案 。
Quick-分类任务 ,  分类器必须从一组句子嵌入中选择以下句子
来源:等人的「学习语句表达的有效框架」
在很长一段时间里 , 监督学习句子嵌入被认为是比无监督的方法提供更低质量的嵌入 , 但是这个假设最近被推翻 , 部分是在推论结果的发布之后 。
与之前详述的无监督方法不同 , 监督学习需要标注数据集来标注某些任务 , 如自然语言推理(如一对限定句)或机器翻译(如一对译句) , 构成特定的任务选择的问题和相关问题的数据集的大小需要质量好的嵌入 。在讨论这个问题之前 , 让我们看看 2017 年发布的突破的背后是什么 。
因其简单的体系结构 , ()是一个有趣的方法 。它使用句子自然语言推理数据集(一组 570k 句子对标有3个类别:中性 , 矛盾和隐含)来在句子编码器之上训练分类器 。两个句子都使用相同的编码器进行编码 , 而分类器则是根据两个句子嵌入构建的一对表示进行训练 。等人采用双向 LSTM 完成最大池化的操作器作为句子编码器 。
从NLI数据集中学习的监督句子嵌入模型()
资料来源:A. 等人的「自然语言推理数据中通用句子表示的监督学习」
除了通常的寻找最佳神经网络模型的探索之外 ,  的成功还提出了以下问题:
什么样的监督训练任务能获得更好泛化到下游任务中的句子嵌入?
多任务学习可以看作是 Skip- ,  和相关的无监督/监督学习方案的泛化 , 它通过试图在训练方案中结合几个训练目标来回答这个问题 。
最近几个关于多任务学习的提议于2018年初发布 。让我们简要的看一下MILA / MSR 的通用句子表示和 的通用句子编码器 。