译 GPT-4 官方技术报告( 四 )


许多现有的ML基准是用英语编写的 。为了初步了解GPT-4在其他语言中的能力,我们使用Azure 将MMLU基准[35, 36]--一套涵盖57个科目的多选题--翻译成各种语言(见附录F的翻译和提示示例) 。我们发现,GPT-4在我们测试的大多数语言(包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言)中的表现都优于GPT 3.5和现有语言模型( [2]和PaLM [3])(图5) 。
【译GPT-4 官方技术报告】图5. GPT-4在各种语言中的表现与之前的模型在MMLU上的英语表现相比 。GPT-4在绝大多数测试语言中的表现都优于现有语言模型[2, 3],包括低资源语言,如拉脱维亚语、威尔士语和斯瓦希里语 。
GPT-4在遵循用户意图的能力方面比以前的模型有很大的改进[63] 。在提交给[64]和 API[47]的5,214个提示的数据集上,在70.2%的提示中,GPT-4产生的响应比GPT-3.5产生的响应更受欢迎 。
我们收集了通过和 API发送给我们的用户提示,从每个模型中抽出一个响应,并将这些提示和响应发送给人类标注人员 。标注人员被要求判断该反应是否是用户根据提示所希望的 。标注人员没有被告知哪个响应是由哪个模型产生的,而且响应呈现的顺序是随机的 。我们过滤掉含有任何种类的不允许或敏感内容的提示,包括个人身份信息(PII)、性内容、仇恨言论和类似内容 。我们还过滤了简短(例如 "你好,!")和过于常见的提示 。
我们正在开源 Evals,这是我们用于创建和运行评估GPT-4等模型的基准的框架,同时逐一检查性能样本 。Evals与现有的基准兼容,并可用于跟踪部署中模型的性能 。我们计划随着时间的推移增加这些基准的多样性,以代表更广泛的故障模式和更难的任务集 。
4.1 视觉输入
GPT-4接受由图像和文本组成的提示,这与纯文本设置并行,让用户指定任何视觉或语言任务 。具体来说,该模型根据任意交错的文本和图像组成的输入生成文本输出 。在一系列的范畴中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力 。表3是GPT-4视觉输入的一个例子 。为语言模型开发的标准测试时间技术(例如,少量提示、思维链等)在使用图像和文本时也同样有效--例子见附录G 。
在一组有限的学术视觉基准上的初步结果可以在GPT-4博文[65]中找到 。我们计划在后续工作中发布更多关于GPT-4的视觉能力的信息 。
表3. 展示GPT-4视觉输入能力的提示示例 。该提示包括一个关于有多个板块的图像的问题,GPT-4能够回答 。
5 局限性
尽管有这样的能力,GPT-4也有与早期GPT模型类似的局限性 。最重要的是,它仍然不是完全可靠的(它对事实产生 "幻觉",并出现推理错误) 。在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心,并且使用确切的协议(如人类审查,用额外的上下文托底,或完全避免高风险的使用)与具体应用的需要相匹配 。详见我们的系统卡 。
相对于以前的GPT-3.5模型,GPT-4大大减少了幻觉(随着不断的迭代,它们本身也在不断改进) 。在我们内部对抗性设计的事实性评估中,GPT-4的得分比我们最新的GPT-3.5高19个百分点(图6) 。
图6. GPT-4在九个内部对抗性设计的事实性评价中的表现 。准确率显示在Y轴上,越高越好 。准确度为1.0意味着模型的答案被判断为与人类对评价中所有问题的理想答案一致 。我们将GPT-4与基于GPT-3.5的三个早期版本的[64]进行比较;GPT-4比最新的GPT-3.5模型提高了19个百分点,在所有题目上都有明显的提高 。
GPT-4在[66]这样的公共基准上取得了进展,该基准测试了模型区分事实和从对抗性选择的不正确陈述集的能力(图7) 。这些问题与在统计学上具有吸引力的事实错误的答案成对出现 。GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹;然而,经过RLHF的后训练,我们观察到比GPT-3.5有很大的改进 。GPT-4抵制选择常见的说法(你不能教老狗新把戏),然而它仍然可能错过微妙的细节(猫王不是演员的儿子,所以帕金斯是正确答案) 。