译 GPT-4 官方技术报告( 三 )


图3. GPT-4和更小的模型在任务上的表现 。准确率显示在Y轴上,越高越好 。Ada、和Curie指的是通过 API[47]提供的模型 。
我们认为,准确地预测未来的能力对安全是很重要的 。展望未来,我们计划在大型模型训练开始之前,完善这些方法并登记各种能力的性能预测,我们希望这成为该领域的共同目标 。
4 能力
我们在一系列不同的基准上测试了GPT-4,包括模拟最初为人类设计的考试 。考试中的少数问题是模型在训练过程中看到的;对于每场考试,我们都会运行一个去除这些问题的变体,并报告两者中较低的分数 。我们相信这些结果是有代表性的 。关于这些混合的进一步细节(方法和每场考试的统计),见附录C 。
考试的来源是公开可用的材料 。考试问题包括选择题和自由回答题;我们为每种形式的考试设计了单独的提示,并在需要输入的问题中加入了图像 。评估的设置是根据考试的一组验证集的成绩设计的,我们报告的最终结果基于预留的测试考试 。总分是通过结合选择题和自由回答题的分数来确定的,使用的是每场考试的公开可用的方法 。我们估计并报告每个总分所对应的百分位数 。关于考试评估方法的进一步细节,见附录A 。
对于AMC 10和AMC 12 2022年的考试,人类的百分位数还没有公布,所以报告的数字是推断出来的,可能有很大的不确定性 。见附录A.5 。
我们为这些考试使用RLHF后训练的模型
表1. GPT在学术和专业考试中的表现 。在每个案例中,我们都模拟了真实考试的条件和评分 。我们报告了GPT-4根据考试的具体评分标准所评定的最终分数,以及达到GPT-4分数的应试者的百分数 。
图4. GPT在学术和专业考试中的表现 。在每个案例中,我们都模拟了真实考试的条件和评分 。考试是根据GPT-3.5的表现从低到高排序的 。GPT-4在大多数考试中的表现都超过了GPT-3.5 。为了保守起见,我们报告了百分位数范围的下限,但这在AP考试中产生了一些假象,因为AP考试的得分区间非常宽 。例如,尽管GPT-4在AP生物学考试中获得了可能的最高分(5/5),但由于15%的应试者达到了这个分数,所以在图中只显示为第85百分位 。
GPT-4在大多数这些专业和学术考试中都表现出人类水平的表现 。值得注意的是,它通过了统一律师考试的模拟版本,成绩在应试者中名列前茅(表1,图4) 。
该模型在考试中的能力似乎主要源于预训练过程,并没有受到RLHF的明显影响 。在选择题上,基础GPT-4模型和RLHF模型在我们测试的考试中平均表现同样出色(见附录B) 。
我们还在为评估语言模型而设计的传统基准上评估了预训练的基础GPT-4模型 。对于我们报告的每个基准,我们对训练集中出现的测试数据进行了污染检查(关于每个基准污染的全部细节,见附录D) 。在评估GPT-4时,我们对所有基准都使用了小样本提示[1] 。
GPT-4的性能大大超过了现有的语言模型,以及以前最先进的(SOTA)系统,这些系统通常有针对基准的精心调整或额外的训练协议(表2) 。
在我们的污染检查中,我们发现BIG-bench[48]的部分内容无意中被混入了训练集,因此我们在报告的结果中排除了它 。
对于GSM-8K,我们在GPT-4的预训练混合中包括部分训练集(详见附录E) 。我们在评估时使用了思维链提示法[11] 。
表2. GPT-4在学术基准上的表现 。我们将GPT-4与最好的SOTA(有针对基准的训练)和最好的使用小样本评估的LM SOTA进行比较 。GPT-4在所有基准上都优于现有的LM,并且在除DROP之外的所有数据集上,通过针对基准的训练击败了SOTA 。对于每项任务,我们都报告了GPT-4的性能以及用于评估的少量方法 。对于GSM-8K,我们在GPT-4的预训练组合中包含了部分训练集(见附录E),在评估时我们使用了思维链提示法[11] 。对于选择题,我们向模型呈现所有的答案(ABCD),并要求它选择答案的字母,类似于人类解决此类问题的方式 。