智能文本生成：进展与挑战( 六 ) _文本

4智能文本生成面临的挑战
基于深度学习和预训练语言模型的智能文本生成已经展现出强大的能力，但是仍面临可控性不好、缺乏可解释性、资源消耗大等问题和挑战。首先，模型无法精准控制生成结果，导致生成文本的质量时好时坏，进而影响其在关键场景的落地应用，这方面的具体问题稍后会展开详述。其次，基于深度学习的文本生成模型缺乏可解释性，其工作机理更像是一个黑盒子，不利于错误诊断和分析。关于预训练语言模型的内在机理，业界虽然有各种推测和假设，但目前并没有令人信服的答案。最后，目前的预训练语言模型都非常庞大，训练和使用会耗费巨大的资源（GPU卡、存储空间、能源消耗、资金投入等），与人类社会的绿色环保发展理念相背离，且容易形成垄断，不利于行业生态的健康发展。目前针对GPT系列大模型的压缩和小型化工作极少，且难度很大，轻量级文本生成模型的研制需要得到业界更多的关注和重视。文本生成模型的结果不可控问题具体体现在以下几个方面。
● 内容覆盖性不佳（“写得不够”）。典型的有条件文本生成任务（如文本摘要、、等）均要求输出结果能够覆盖输入数据中的重要信息。然而，当前的文本生成模型可能会遗漏输入数据中的某些重要事件/关系/实体等信息，导致出现内容覆盖性不佳的问题。例如，对输入的句子“小丽的爸爸和妈妈来美丽的校园看望她了”进行摘要和压缩，模型可能会生成“小丽的爸爸来校园看望她了”，这个结果文本遗漏了输入句子中的重要信息“小丽的妈妈”，因此内容覆盖性较差。当前解决该问题的方法包括显式利用句法语义知识增强模型编码端对输入数据/文档的理解，也可以考虑首先提取重要信息（如关键词、实体、关系等），然后在模型解码端增加约束，要求模型输出覆盖重要的词语/实体/关系。
● 文本多样性欠缺（“写得雷同”）。目前的文本生成模型倾向于在类似的条件下生成相似的文本表达，使得输出文本欠缺多样性，给读者千篇一律的感受。例如，对不同场次的足球比赛，模型可能会生成类似的语句“A队X-Y战胜了B队”介绍比赛结果（其中A、B为比赛队伍名，X-Y为比分），这样的赛事报道文本表达雷同，给读者不好的阅读感受。该问题的根本原因在于文本解码算法在每一步均倾向于输出（给定上下文条件下）神经网络模型计算得到的概率最大的词语。业界解决该问题的方法主要是在解码过程中简单引入随机性（如top-k、top-p），或者通过采样不同的随机向量帮助多样性文本生成。这些方法虽然能够部分改善这个问题，然而会引起文本基本质量（如流畅性）下降。
● 信息保真性不好（“写得有错”）。当前文本生成模型的输出结果中通常会出现关键信息与输入数据或客观世界不一致或相互冲突的情况，也会出现某些无法验证的信息。例如在用户的引导下会输出“曹雪芹的丈夫名叫高鹗”这样与客观事实不符的文本。文本摘要模型会在生成结果中用错实体、数量、性别等关键信息（例如原文中为“张三”，而在摘要结果中为“李四”）。这个问题严重影响了文本生成模型的应用。可以看到，由于模型在训练阶段见识过大量数据，并记忆各类信息，这些信息仍有可能在测试使用阶段出现在模型输出中，也有可能与当前输入信息进行某种形式的组合作为输出。因此，业界主要考虑对模型输出增加语义约束从而提升文本生成结果的语义保真性，或者利用强化学习手段进行模型优化。此外，业界也探索利用纠错模型来修正文本生成结果的错误，提升信息保真性。