ChatGPT作者John Schulman:我们成功的秘密武器( 八 )


我们即将开始探索上述问题 。然而,到目前为止,在我所关注的领域中,尚未发现需要采用该方法的情况 。但据我估计,这种方法在未来会变得十分重要 。
Robin :AGI、RL及大型语言模型之间的关系是什么?它们又是如何相互配合的?
John :强化学习(RL)是训练人工通用智能(AGI)关键方法之一,它可以用来优化Agent的行为,以达到某种目标 。在强化学习中,任何目标通常被视为Agent行为函数的一部分 。与语言模型预训练类似,强化学习也需要选择一个目标并利用大量的训练数据(如互联网文本)来优化Agent的行为 。
此外,我们会选择最大似然目标函数()来作为Agent的训练目标,虽然还有其他的目标函数可供选择,但最大似然目标函数是明智之选 。如果真的想通过优化Agent行为以达到特定目标,那么强化学习是最适合的框架 。
Robin :AGI是一种抽象目标吗?还是说我们有望在某一天看到AGI模型问世?模型问世之时,人们会惊叹,“这是首个AGI模型” 。那么,人们对该模型的评价又会如何?
John :我认为当AGI真正问世的时候,经过多次试用,人们会意识到它并非完全符合我们的预期 。虽然我们可能会看到很多模型在某些领域或某类任务上超越人类,但它们仍然存在一些失效模式和弱点 。例如,可能会出现多个自称AGI的模型,但只有在与其交互一段时间后,人们才会发现它们无法完全达到AGI的水平 。
Robin :据你估计,AGI还有多久问世?
John :距AGI的问世不会太遥远,不过过程中肯定会出现许多误判 。预计在未来的五年时间里,AI能够在大多数人类目前从事的工作上表现得比人类更好 。当然,并非所有工作都会被AI取代,人类仍然会在某些领域享有控制权 。因此,在未来的10到15年中,我们会见证AI逐步推进的整个过程 。
相关参考链接
1.
2. :
3. :
4. Ourto,2022
5.to Solve Math Word , Cobbe et al 2021
6. UCDeep RL6: Nuts and Bolts of Deep RL , John2017
7.,2017
8.: From Deepto,2016
其他人都在看
欢迎Star、试用新版本: - -Inc/:is a deepto be user-,and . is a deepto be user-,and . -- -Inc/:is a deepto be user-,and .
【ChatGPT作者John Schulman:我们成功的秘密武器】

ChatGPT作者John Schulman:我们成功的秘密武器

文章插图