综述 | 大型语言模型全盘点!从T5到GPT-4( 五 )


总结与未来方向
在最后一节中 , 研究者总结了这次调查的讨论 , 并从以下几个方面介绍了 LLMs 的挑战和未来发展方向 。
理论和原理:为了理解 LLM 的基本工作机制 , 最大的谜团之一是信息如何通过非常大的深度神经网络进行分配、组织和利用 。揭示建立 LLMs 能力基础的基本原则或元素是很重要的 。特别是 , 缩放似乎在提高 LLMs 的能力方面发挥了重要作用 。已有研究表明 , 当语言模型的参数规模增加到一个临界点(如 10B)时 , 一些新兴能力会以一种意想不到的方式出现(性能的突然飞跃) , 典型的包括上下文学习、指令跟随和分步推理 。这些「涌现」的能力令人着迷 , 但也令人困惑:LLMs 何时以及如何获得这些能力?最近的一些研究要么是进行广泛的体验 , 调查新兴能力的效果和这些能力的促成因素 , 要么是用现有的理论框架解释一些特定的能力 。一个有见地的技术帖子将 GPT 系列模型作为目标也专门讨论了这个话题 , 然而仍然缺少更正式的理论和原则来理解、描述和解释 LLM 的能力或行为 。由于涌现能力与自然界中的相变有着密切的相似性 , 跨学科的理论或原则(例如 LLMs 是否可以被视为某种复杂系统)可能对解释和理解 LLMs 的行为有帮助 。这些基本问题值得研究界探索 , 对于开发下一代的 LLMs 很重要 。
模型架构:由于可扩展性和有效性 , 由堆叠的多头自注意力层组成的已经成为构建 LLMs 的普遍架构 。人们提出了各种策略来提高这个架构的性能 , 如神经网络配置和可扩展的并行训练(见 4.2.2 节讨论) 。为了进一步提高模型的容量(如多轮对话能力) , 现有的 LLMs 通常保持较长的上下文长度 , 例如 , GPT-4-32k 具有 32768 个 token 的超大上下文长度 。因此 , 一个实际的考虑是减少标准的自注意力机制所产生的时间复杂性(原始的二次成本) 。
此外 , 研究更高效的变体对构建 LLMs 的影响是很重要的 , 例如稀疏注意力已经被用于 GPT-3 。灾难性遗忘也一直是神经网络的挑战 , 这也对 LLMs 产生了负面影响 。当用新的数据调整 LLMs 时 , 原先学到的知识很可能被破坏 , 例如根据一些特定的任务对 LLMs 进行微调会影响它们的通用能力 。当 LLMs 与人类的价值观相一致时 , 也会出现类似的情况 , 这被称为对齐税( tax) 。因此有必要考虑用更灵活的机制或模块来扩展现有的架构 , 以有效支持数据更新和任务专业化 。
模型训练:在实践中 , 由于巨大的计算量以及对数据质量和训练技巧的敏感性 , 预训练可用的 LLMs 非常困难 。因此 , 考虑到模型有效性、效率优化和训练稳定性等因素 , 开发更系统、更经济的预训练方法来优化 LLMs 变得尤为重要 。开发更多的模型检查或性能诊断方法(例如 GPT-4 中的可预测缩放) , 便于在训练中发现早期的异常问题 。此外 , 它还要求有更灵活的硬件支持或资源调度机制 , 以便更好地组织和利用计算集群中的资源 。由于从头开始预训练 LLMs 的成本很高 , 因此必须设计一个合适的机制 , 根据公开的模型检查点(例如 LLaMA 和 Flan-T5)不断地预训练或微调 LLMs 。为此 , 必须解决一些技术问题 , 包括数据不一致、灾难性遗忘和任务专业化 。到目前为止 , 仍然缺乏具有完整的预处理和训练日志(例如准备预训练数据的脚本)的开源模型检查点以供重现的 LLM 。为 LLMs 的研究提供更多的开源模型将是非常有价值的 。此外 , 开发更多的改进调整策略和研究有效激发模型能力的机制也很重要 。