综述 | 大型语言模型全盘点!从T5到GPT-4( 四 )


最近的一项调查对指令调优研究进行了系统的概述 。相比之下 , 本文主要关注指令调优对 LLMs 的影响 , 并提供实例收集和调优的详细指南或策略 。此外 , 本文还讨论了使用指令调优来满足用户的实际需求 , 这已广泛应用于现有的 LLMs , 例如和 GPT-4 。
格式化实例构建:通常 , 指令格式的实例由任务描述(称为指令)、输入输出对和少量演示(可选)组成 。作为重要的公共资源 , 现有研究已经发布了大量以自然语言格式化的标记数据(参见表 5 中的可用资源列表) 。接下来 , 本文将介绍构造格式化实例的两种主要方法(参见图 4 中的插图) , 然后讨论实例构造的几个关键因素 。
指令调优策略:与预训练不同 , 指令调优通常更有效 , 因为只有适度数量的实例用于训练 。虽然指令调优可以被认为是一个有监督的训练过程 , 但它的优化在几个方面与预训练不同 , 例如训练目标(即序列到序列损失)和优化配置(例如更小的批次) 大小和学习率) , 这在实践中需要特别注意 。除了这些优化配置之外 , 指令调优还需要考虑两个重要方面:
对齐调优
这部分首先介绍了对齐的背景及其定义和标准 , 然后重点介绍了用于对齐 LLMs 的人类反馈数据的收集 , 最后讨论了用于对齐调整的人类反馈强化学习的关键技术 。
使用
在预训练或适应性调整之后 , 使用 LLMs 的一个主要方法是为解决各种任务设计合适的策略 。一个典型的方法是上下文学习(in- ) , 它以自然语言文本的形式制定了任务描述或演示 。此外 , 思维链方法可以通过将一系列中间推理步骤纳入中来加强上下文学习 。在第六节中 , 研究者详细介绍了这两种技术的细节 。
上下文学习
作为一种特殊的形式 , 上下文学习(ICL)是 GPT-3 首次提出的 , 它已经成为利用 LLMs 的一种典型方法 。
思维链
思维链(CoT)是一种改进的策略 , 可以提高 LLM 在复杂推理任务中的表现 , 如算术推理、常识推理和符号推理 。CoT 不是像 ICL 那样简单地用输入 - 输出对来构建  , 而是将能够导致最终输出的中间推理步骤纳入。在第 6.2 节中 , 研究者详细说明了 CoT 与 ICL 的用法 , 并讨论 CoT 何时有效以及为何有效 。
能力评估
为了研究 LLMs 的有效性和优越性 , 研究者利用了大量的任务和基准来进行实证评估和分析 。第七节首先介绍了三种用于语言生成和理解的 LLMs 的基本评估任务 , 然后介绍几种具有更复杂设置或目标的 LLMs 的高级任务 , 最后讨论了现有的基准和实证分析 。
基本评估任务
图 7:一个公开 LLM 的内在和外在幻觉的例子(访问日期:2023 年 3 月 19 日) 。作为内在幻觉的例子 , LLM 对 Cindy 和 Amy 之间的关系给出了一个与输入相矛盾的判断 。对于外在幻觉 , 在这个例子中 , LLM 似乎对 RLHF(从人类反馈中强化学习)的含义有不正确的理解 , 尽管它能正确理解 LLM 的含义 。
高级任务评估

综述 | 大型语言模型全盘点!从T5到GPT-4

文章插图
除了上述基本评估任务 , LLMs 还表现出一些高级能力 , 需要特别评估 。在第 7.2 节中 , 研究者讨论了几个有代表性的高级能力和相应的评价方法 , 包括人工对齐、与外部环境的交互以及工具的操作 。