ChatGPT一小步,NLP范式转变一大步( 二 )


思维链提示是一个展示模型随着规模突现出能力的典型例子:
有些同学可能会认为模型能做小学数学代表不了什么(从某种意义上说,他们确实没有那么酷) 。但 GSM8K 只是一个开始,最近的工作已经把前沿问题推向了高中[10]、大学[11],甚至是国际数学奥林匹克问题[12] 。现在更酷了吗?
知识推理
下一个例子是需要知识的推理能力(例如问答和常识推理) 。在这种情况下,对大型模型进行提示不一定优于精调小型模型(哪个模型更好还有待观察) 。但是这个情况下的注释效率被放大了,因为:
图片来自于 Yu et. al. 2022. 以前的 SOTA 模型需要从外部知识源中检索 。GPT-3 的性能与以前的模型相当/优于以前的模型,且无需检索 。
如表中所示,与数学题的例子不同,GPT-3 并没有明显优于之前的精调模型 。但它不需要从外部文档中检索,本身就包含了知识(虽然这些知识可能过时或者不可信,但选择哪种可信知识源超出了本文的讨论范围) 。
为了理解这些结果的重要性,我们可以回顾一下历史:NLP 社区从一开始就面临着如何有效编码知识的挑战 。人们一直在不断探究把知识保存在模型外部或者内部的方法 。
上世纪九十年代以来,人们一直试图将语言和世界的规则记录到一个巨大的图书馆中,将知识存储在模型之外 。但这是十分困难的,毕竟我们无法穷举所有规则 。
因此,研究人员开始构建特定领域的知识库,来存储非结构化文本、半结构化(如维基百科)或完全结构化(如知识图谱)等形式的知识 。通常,结构化知识很难构建(因为要设计知识的结构体系),但易于推理(因为有体系结构),非结构化知识易于构建(直接存起来就行),但很难用于推理(没有体系结构) 。然而,语言模型提供了一种新的方法,可以轻松地从非结构化文本中提取知识,并在不需要预定义模式的情况下有效地根据知识进行推理 。下表为优缺点对比:
分布外鲁棒性
我们讨论的第三种能力是分布外的鲁棒性 。在 2018 年至 2022 年期间,NLP、CV 和通用机器学习领域有大量关于分布偏移/对抗鲁棒性/组合生成的研究,人们发现当测试集分布与训练分布不同时,模型的行为性能可能会显著下降 。然而,在大型语言模型的上下文学习中似乎并非如此 。Si 等人在2022年的研究显示[17]:
数据来自于 Si et. al. 2022. 虽然 GPT-3 在同分布设置下比要差,但在非同分布设置下优于,性能下降明显更小 。
同样,在此实验中,同分布情况下基于提示词的 GPT-3 的效果并没有精调后的 要好 。但它在三个其他分布(领域切换、噪声和对抗性扰动)中优于,这意味着 GPT3 更加鲁棒 。
此外,即使存在分布偏移,好的提示词所带来的泛化性能依旧会继续保持 。比如:
图片来自于 Fu et. al. 2022. 即使测试分布与训练分布不同,复杂提示也始终比简单提示的表现更好 。
Fu 等人2022年[18]的研究显示,输入提示越复杂,模型的性能就越好 。这种趋势在分布转移的情况下也会继续保持:无论测试分布与原分布不同、来自于噪声分布,或者是从另一个分布转移而来的,复杂提示始终优于简单提示 。
到目前为止的总结
在上文中,我讨论了只有大型模型才有的三种突现能力 。它们是:
03、突现能力推翻比例定律
鉴于上文列出的优点,大家可能会开始觉得大型语言模型确实很好了 。在进一步讨论之前,让我们再回顾一下之前的工作,就会发现一个很奇怪的问题:GPT-3 在 2020 年就发布了,但为什么直到现在我们才发现并开始思考范式的转变?