智能文本生成:进展与挑战( 五 )


不同于模型的其他代表性文本生成模型有变分自动编码器( ,VAE)、生成对抗网络(,GAN)、扩散模型( model)等,这些模型要么难以训练,要么当前的性能表现仍不理想,难以在实际场景得以应用,需要进一步探索和完善 。
模型同样基于编码器-解码器框架,也适用于处理序列转换问题,可看作一种充分利用注意力机制的特殊模型 。模型的编码器主要由多头注意力(Multi-head )、残差连接与层归一化(Add&Norm)、前向反馈网络(Feed )等模块构成,为每个输入符号获得一个上下文感知的语义向量表示 。解码器与编码器类似,主要由隐码多头注意力( multi-head )、多头注意力、残差连接与层归一化、前向反馈网络等模块构成 。解码器通过多头注意力对编码器输出信息进行有效的访问和利用,同时通过隐码多头注意力访问和利用已经生成的序列信息 。模型在各类文本生成任务上均具有卓越的性能表现,已成为当前文本生成乃至整个自然语言处理领域的代表性和突破性技术之一,具有重要的落地应用价值 。
不同于模型的其他代表性文本生成模型包括变分自动编码器(VAE)、对抗生成网络(GAN)、扩散模型( Model)等,这些模型要么难以训练,要么当前的性能表现仍不够理想,难以在实际场景应用,需要进一步的探索和完善 。
3.3基于预训练语言模型的文本生成方法
预训练语言模型(model, PLM)是对海量语料(一般是未标注语料,也可包括标注语料)进行训练得到的语言模型 。语料一般不带任何标注信息,因此模型通常采用一个或多个自监督任务作为训练目标,例如基于文本中前面的词语序列预测下一个词语等 。预训练语言模型通常由多层基础神经网络模块(如网络)堆叠而成,参数规模大(从数亿增长到数千亿),需要大量的数据进行训练 。不同的预训练语言模型具有不同的架构,通过模型预训练能获得性能卓越的文本编码器(如BERT、模型)或文本解码器(如GPT系列模型),或者二者兼得(如BART、T5 模型) 。其中,推出的GPT系列模型是最具代表性同时也是到目前为止最成功的文本生成大模型,特别是2022年推出的模型具有令人印象深刻的文本生成能力 。其能够根据用户的提示和引导完成各类文本生成任务,例如文本摘要、复述、故事生成、文案生成等,还具有回答问题、生成代码等多种能力,被部分学者视为走向通用人工智能(,AGI)的一条可行路径 。GPT系列语言模型总结见表1 。可以看到,GPT系列模型的发展趋势是首先增加模型参数和训练数据规模使其具备足够强的生成能力,然后考虑利用人类反馈信息优化模型生成更加安全并符合人类价值观的内容 。

智能文本生成:进展与挑战

文章插图
预训练语言模型的超强能力可以总结为“一种泛化的记忆能力”,通过大规模模型参数以某种隐式方式获取并存储数据中的语言学及事实、常识等各类知识,同时具备一定程度的涌现能力( ),解决相对复杂、困难的任务 。目前对于语言大模型内在机理的研究还处于起步阶段,语言大模型对人们而言仍然像是一个黑盒子,亟待业界共同努力破解其内在奥秘 。
预训练语言模型相当于“巨人的肩膀”,已成为解决各类文本生成任务的关键支撑,众多研究试验对比发现,采用预训练语言模型能大幅提升文本生成效果 。业界通常采用如下两种典型方式(业界还提出基于任务标注数据对预训练模型的一部分参数或者额外增加的参数进行训练的方法,但此类方法既不简洁,效果也不突出,因此不再赘述 。)利用预训练语言模型帮助特定文本生成任务:一是面向特定任务的模型微调();二是对模型进行提示和示例( &) 。第一种方式基于特定任务的标注数据对预训练语言模型进行进一步训练,调整优化预训练语言模型的全体参数,从而取得在特定任务上的更佳效果 。例如,可以基于文本简化数据进一步训练BART模型,使得BART模型能够更好地应对文本简化任务 。与第一种方式不同,第二种方式不用进一步训练预训练语言模型,甚至可以不利用特定任务的标注数据,或者只利用极少量的数据样例 。该方式高度依赖人工或自动构造的自然语言提示(不同的提示可能会导致不同的生成效果,如何构造好的提示也是值得探讨的问题 。),在该提示的引导下,预训练语言模型能够理解任务并生成相应的结果 。例如,对于文本简化任务,可以构造这样的提示“请将这句话改写为更简单易懂的句子:【*】,改写结果如下:”,然后用待改写的句子替换“【*】”作为GPT-3模型的输入,模型会生成/续写相应的简化结果 。为了进一步提升模型对特定任务的理解,可以提供一个或多个样例(包括样例的输入和标注结果),与提示文本拼接在一起作为模型输入,使得模型能够通过样例更好地理解特定任务的目标和要求,从而更好地完成任务 。可以看到,对模型进行提示的方式不需要重新训练模型,因此能够节约资源且更加方便,但是要求模型已经具备多任务、少样本甚至零样本文本生成能力 。从实际效果来看,GPT-3和能够比较好地支持以该方式完成各类主流文本生成任务,而对于独特、小众、领域相关的文本生成任务,可能仍需要采用模型微调的方式才能取得较好的生成效果 。