译 GPT-4 官方技术报告

摘要
我们报告了GPT-4的开发情况,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出 。虽然在许多现实世界的场景中,GPT-4的能力不如人类,但在各种专业和学术基准上表现出人类水平的性能,包括在模拟的律师考试中,以大约前10%的应试者的分数通过 。GPT-4是一个基于的模型,预先训练它来预测文档中的下一个标记 。训练后的调整过程使事实性和遵循预期行为的衡量标准的表现得到改善 。这个项目的一个核心部分是开发基础设施和优化方法,这些方法在大相径庭的不同规模上表现得可预测 。这使我们能够根据以不超过GPT-4的1/1000的计算量训练的模型准确地预测GPT-4的某些方面的性能 。
1 简介
本技术报告介绍了GPT-4,一个能够处理图像和文本输入并产生文本输出的大型多模态模型 。此类模型是一个重要的研究领域,因为它们有潜力被用于各种应用中,如对话系统、文本摘要和机器翻译 。因此,近年来它们一直是人们关注的对象,并取得了很大的进展[1-34] 。
开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力,特别是在更复杂和细致的情场景中 。为了测试其在此类场景中的能力,GPT-4在各种最初为人类设计的考试中进行了评估 。在这些评估中,它表现得相当好,而且经常超过绝大多数人类应试者的分数 。例如,在模拟的律师考试中,GPT-4取得的分数位列所有参与测试者的前10% 。这与GPT-3.5形成鲜明对比,后者的分数排名倒数10% 。
在一套传统的NLP基准测试中,GPT-4超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程) 。在MMLU基准测试[35, 36],一套涵盖57个科目的英语选择题中,GPT-4不仅在英语中超过了现有模型相当大的优势,而且在其他语言中也表现出强大的性能 。在MMLU的翻译变体上,GPT-4在26种语言中的24种语言中超过了英语语言的最先进水平 。我们在后面的章节中详细讨论了这些模型能力的结果,以及模型安全性的改进和结果 。
本报告还讨论了该项目的一个关键挑战,即开发在各种规模下表现可预测的深度学习基础设施和优化方法 。这使我们能够对GPT-4的预期性能进行预测(基于以类似方式训练的小规模运行),这些预测用最终的运行进行了测试,以增加对我们训练的信心 。
尽管GPT-4有其能力,但它与早期的GPT模型[1, 37, 38]有类似的局限性:它不完全可靠(例如,可能遭受 "幻觉"),上下文窗口有限,并且不从经验学习 。谨慎使用GPT-4的输出结果,特别是在对可靠性要求很高的情况下 。
GPT-4的能力和局限性带来了重大而新颖的安全挑战,鉴于其潜在的社会影响,我们认为对这些挑战的认真研究是一个重要的研究领域 。本报告包括一个广泛的系统卡(在附录之后),描述了我们预见的围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等的一些风险 。它还描述了我们为减轻部署GPT-4的潜在危害而采取的干预措施,包括与领域专家的对抗性测试,以及一个辅助模型的安全管道 。
2 本技术报告的范围和局限性
本报告重点介绍GPT-4的能力、局限性和安全性能 。GPT-4是一个风格的模型[39],预训练来预测文档中的下一个词元,使用公开的数据(如互联网数据)和第三方供应商授权的数据 。然后该模型被使用来自人类反馈的强化学习(RLHF)[40]对进行微调 。鉴于像GPT-4这样的大规模模型的竞争状况和安全影响,本报告不包含关于架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法以及其他的细节、 数据集构建、训练方法或类似内容 。