综述 | 大型语言模型全盘点!从T5到GPT-4( 二 )


上下文学习 。GPT-3 正式引入了上下文学习能力:假设语言模型已经提供了自然语言指令和多个任务描述 , 它可以通过完成输入文本的词序列来生成测试实例的预期输出 , 而无需额外的训练或梯度更新 。
指令遵循 。通过对自然语言描述(即指令)格式化的多任务数据集的混合进行微调 , LLM 在微小的任务上表现良好 , 这些任务也以指令的形式所描述 。这种能力下 , 指令调优使 LLM 能够在不使用显式样本的情况下通过理解任务指令来执行新任务 , 这可以大大提高泛化能力 。
循序渐进的推理 。对于小语言模型 , 通常很难解决涉及多个推理步骤的复杂任务 , 例如数学学科单词问题 。同时 , 通过思维链推理策略 , LLM 可以通过利用涉及中间推理步骤的机制来解决此类任务得出最终答案 。据推测 , 这种能力可能是通过代码训练获得的 。
关键技术
接下来来看 LLMs 的关键技术 , 包括了缩放、训练、能力激发、对齐调优、工具利用等 。
缩放 。缩放是增加 LLMs 模型容量的关键因素 , 最开始 GPT-3 将模型参数增至 1750 亿 , 随后 PaLM 进一步将模型参数增至 5400 亿 。大规模参数对于涌现能力至关重要 。缩放不仅针对模型大小 , 还与数据大小和总计算量有关 。
训练 。由于规模巨大 , 成功训练一个具备强大能力的 LLMs 非常具有挑战性 。因此需要分布式训练算法来学习 LLMs 的网络参数 , 经常联合使用各种并行策略 。为了支持分布式训练 ,  和 -LM 等优化框架被用来促进并行算法的实现和部署 。此外 , 优化技巧对训练稳定性和模型性能也很重要 , 例如重新启动训练损失尖峰和混合精度训练 。最近的 GPT-4 开发了特殊的基础设施和优化方法 , 从而利用小得多的模型来预测大模型的性能 。
能力激发 。在大规模语料库上经过预训练后 , LLMs 被赋予了解决一般任务的潜在能力 。然而当 LLMs 执行某个特定任务时 , 这些能力可能不会显式地表现出来 。因此设计适合的任务指令或特定的上下文策略来激发这些能力非常有用 , 比如思维链有助于通过中间推理步骤等解决复杂推理任务 。此外还可以进一步对具有自然语言任务描述的 LLMs 进行指令调优 , 以提高对未见过任务的泛化能力 。
对齐调优 。由于 LLMs 被训练用来捕获预训练语料库的数据特征(包括高质量和低质量的数据) , 它们很可能生成对有毒、有偏见和有害的文本内容 。为了使 LLMs 与人类价值观保持一致 ,  设计了一种利用强化学习和人类反馈的高效调优方法 , 使得 LLMs 能够遵循预期指令 。是在类似的技术上开发的 , 在产生高质量、无害的响应方面表现出了强大的对齐能力 。
工具利用 。LLMs 本质上是基于大规模纯文本语料库训练的文本生成器 , 因此在数值计算等文本表达不佳的任务上表现没那么好 。此外 LLMs 的能力受限于预训练数据 , 无法捕获最新信息 。针对这些问题 , 人们提出使用外部工具来弥补 LLMs 的不足 , 比如可以利用计算器进行精确计算 , 使用搜索引擎检索未知信息 。更是利用外部插件来联网学习新知识 , 这种机制可以广泛扩展 LLMs 的能力范围 。
LLMs 资源
考虑到具有挑战性的技术问题和巨大的计算资源需求 , 开发或复制 LLMs 绝不是一件容易的事情 。一个可行的方法是从现有的 LLMs 中学习经验 , 并重新使用公开的资源来进行渐进式的开发或实验研究 。