ChatGPT作者John Schulman：我们成功的秘密武器( 八 ) _模型

我们即将开始探索上述问题。然而，到目前为止，在我所关注的领域中，尚未发现需要采用该方法的情况。但据我估计，这种方法在未来会变得十分重要。
Robin ：AGI、RL及大型语言模型之间的关系是什么？它们又是如何相互配合的？
John ：强化学习（RL）是训练人工通用智能（AGI）关键方法之一，它可以用来优化Agent的行为，以达到某种目标。在强化学习中，任何目标通常被视为Agent行为函数的一部分。与语言模型预训练类似，强化学习也需要选择一个目标并利用大量的训练数据（如互联网文本）来优化Agent的行为。
此外，我们会选择最大似然目标函数（）来作为Agent的训练目标，虽然还有其他的目标函数可供选择，但最大似然目标函数是明智之选。如果真的想通过优化Agent行为以达到特定目标，那么强化学习是最适合的框架。
Robin ：AGI是一种抽象目标吗？还是说我们有望在某一天看到AGI模型问世？模型问世之时，人们会惊叹，“这是首个AGI模型” 。那么，人们对该模型的评价又会如何？
John ：我认为当AGI真正问世的时候，经过多次试用，人们会意识到它并非完全符合我们的预期。虽然我们可能会看到很多模型在某些领域或某类任务上超越人类，但它们仍然存在一些失效模式和弱点。例如，可能会出现多个自称AGI的模型，但只有在与其交互一段时间后，人们才会发现它们无法完全达到AGI的水平。
Robin ：据你估计，AGI还有多久问世？
John ：距AGI的问世不会太遥远，不过过程中肯定会出现许多误判。预计在未来的五年时间里，AI能够在大多数人类目前从事的工作上表现得比人类更好。当然，并非所有工作都会被AI取代，人类仍然会在某些领域享有控制权。因此，在未来的10到15年中，我们会见证AI逐步推进的整个过程。
相关参考链接
1.
2. :
3. ：
4. Ourto,2022
5.to Solve Math Word , Cobbe et al 2021
6. UCDeep RL6: Nuts and Bolts of Deep RL , John2017
7.,2017
8.: From Deepto,2016
其他人都在看
欢迎Star、试用新版本： - -Inc/:is a deepto be user-,and . is a deepto be user-,and . -- -Inc/:is a deepto be user-,and .
【ChatGPT作者John Schulman：我们成功的秘密武器】

文章插图