ChatGPT一小步,NLP范式转变一大步( 四 )


另外,理想的尺寸可以小于 540B,在等人2022年[25]的工作中,作者展示了175B的和 175B的 Codex 使用思维链都好于直接用提示词 。综合以上结果,我们得到了63B和175B两个数字 。所以,如果想要参与这场游戏,首先要有一个大于平均尺寸的模型 。
不过,还有其他大型模型在思维链下的表现差了很多,甚至不能学到思维链,比如 OPT、BLOOM 和 GPT-3 的第一个版本 。他们的尺寸都是175B 。这就引出了我们下一个要讨论的问题 。
06、规模是唯一的因素吗?
不是 。
规模是一个必要但不充分的因素 。有些模型足够大(比如 OPT 和 BLOOM,都是 175B),但并不能做思维链 。
有两种模型可以做思维链 (TODO: addabout UL2):
GPT3系列的模型,包括 text--002 和 code--002 (Codex) 。这是仅有的两个具有强大突现能力并可公开访问的模型 。
a. 除了以上两个模型,其他GPT3模型,包括原来的GPT3,text--001,以及其他更小的GPT-3模型,都不能做思维链 。
b. 当说“能做思维链”时,我们是指使用思维链方法的效果比直接用提示词、精调T5-11B效果更好 。
c. 另外要注意的是,code--002 在语言任务上的性能始终优于 text--002 。这个观察非常有趣且耐人寻味 。这表明基于代码数据训练的语言模型可以胜过根据语言训练的语言模型 。目前为止我们还不知道是为什么 。

ChatGPT一小步,NLP范式转变一大步

文章插图
PaLM系列模型,包括 PaLM、U-PaLM、Flan-PaLM 和。这些模型目前还未开放访问(此处@谷歌,快开源吧) 。
为什么会有突现能力目前还不清楚,但我们找出了一下可能产生突现能力的因素:
a. 指令精调:GPT-3 text--002 就是用指令+强化学习精调[26]的产物 。在这之前,text--001 做思维链的效果并不好 。同时PaLM[27]在经过指令精调[28]后的效果也有提升 。
b. 在代码上精调:Codex code--002 是在代码上进行精调的,它的效果持续好于 text--002 。PaLM 也在代码上进行了调整 。从表面上看,代码与语言关系不大,但似乎起了很大作用,我们会在之后的文章进行讨论 。
c. 用思维链精调:在 text--002 发布时,谷歌已经发布 PaLM 3 个月了 。所以应该看到了思维链相关的工作 。还有一些工作表明[29][30],直接用思维链数据进行精调可以激发模型的思维链能力 。
然而,所有这些因素在现阶段都是推测 。揭示如何训练才能让模型产生突现能力是非常有意义的,我们将更多讨论留到下一篇文章 。
【ChatGPT一小步,NLP范式转变一大步】07、总结
在本文中,我们仔细研究了语言模型的突现能力 。我们强调了复杂推理、知识推理和分布外鲁棒性的重要性和其中存在的机会 。突现能力是非常令人兴奋的,因为它们可以超越比例定律,并在比例曲线中表现出相变 。
我们详细讨论了研究范式是否会真的从精调转向上下文学习,但我们目前还没有确切答案,因为精调和上下文学习在分布内、分布外场景下的效果仍有待对比 。最后,我们讨论了产生突现能力的三个潜在因素:指令精调、代码精调和思维链精调 。非常欢迎大家提出建议和讨论 。
另外我们还提到了两个尚未讨论的有趣问题:
对于这两个问题,我们会在之后的文章中进行讨论 。
中英对照表
参考资料
[1]:
[2]Wei et. al. 2022. Chain ofin Large:
[3]便签本:
[4]Wei et. al. 2022.of Large:
[5]Wei et. al. 2022.of Large:
[6]Cobbe et. al. 2021.to Solve Math Word :
[7]Wei et. al. 2022. Chain ofin Large:
[8]Wang et. al. 2022. Self-Chain ofin:
[9]Fu et. al. 2022. -Basedfor Multi-step :