无人能构想出人工智能的未来 | 对话伯克利顶级学者 Stuart Russell( 三 )


《新程序员》:根据皮克斯的想象,我们可能会在未来成为《瓦力》(《Wall-E》,又译《机器人总动员》)里坐在漂浮椅子上的胖子(如图 3 所示),对吧?
:Wall-E 是人们担心的众多反乌托邦式未来之一,但没人能描述出乌托邦版本的未来是什么样子的 。我问过各种各样的人,但哪怕是那些从事解答此类问题的专家,也无法想象要怎么在未来的地球上建立一个理想的乌托邦 。
图 3 电影《瓦力》中无法行走的人类
在我看来,绝大多数人并不希望生活在一个由AI 代替人类执行思考的世界 。在诸如计算、博弈等智力成就的领域,AI 系统已经远远超过了人类 。然而,尽管计算机在国际象棋方面胜过人类,但国际象棋仍然很流行,因为它是一种消遣,是一种游戏,是日常生活的点缀 。
我们正处于一辆行驶的巴士上,司机能开车只是因为他们碰巧能够掌握这项技术 。作为这辆巴士的乘客,我认为担心未来的前进方向是非常合理的 。
“驯服”大语言模型之前
让我们先学习怎么驯服动物
对于人工智能,人类应该处在控制地位 。

无人能构想出人工智能的未来 | 对话伯克利顶级学者 Stuart Russell

文章插图
——
《新程序员》:想用好 GPT 离不开优秀的提示词() 。您认为提示工程成功的关键原则或策略是什么?你相信以后会存在“完美提示词”或最佳解决方案吗?
:我不认为存在任何从工程学角度指导提示工程的原则,但提示工程确实可以借鉴传统工程的经验 。我的研究团队中有一位科学家曾花了很多时间与 GPT 一起工作,试图命令它做一些事情 。他相信,如果礼貌地请求 GPT,输出效果会更好 。
但是——天呐,为什么我们要对机器说“请”呢?为什么仅仅在提示中加个“请”,就能让机器展现完全不同的行为?这些都是基于我们的实践经验得出的观察,相当令人费解 。
我曾提出过一个假设:这些AI 系统可能存在多重人格的现象,它们的训练目的是模仿许多不同的人类个体 。从技术角度来看,我们通常称之为混合模型 。实际上,混合模型是多个预测器的综合,每个预测器都为特定类型的文本设计 。想象一下,如果我们用英语和中文进行训练,我们就可以得到两个高效的模型,一个在英语上表现突出,另一个在中文上出类拔萃 。但实际情况是,现在存在着数以万计的各种模型和大量的文本内容,包括篮球比赛报道、议会演讲记录、浪漫小说描写和情书等,多不胜数 。你很难归纳出模型中的哪些文本为你提供了价值 。
据我判断,这些礼貌行为引发的效果,是因为它们激发了 AI 系统中“图书管理员”的人格 。我们期望系统的这些组成部分更有可能提供有价值、具有广博知识并尽力给出正确回答的预测,主要是因为不同类型的文本和对话与这类模型的模式相匹配 。当然,这仅仅是一种假设 。
因为我们不了解黑盒的内部工作原理,所以每当涉及黑盒模型时,情况就会变得奇怪 。我们现在试图像对待动物一样让大型模型提供帮助,这个过程被称为“从人类反馈中进行的强化学习”(RLHF) 。
众所周知,如果你想命令马,就必须保持友善,礼貌地对待它;反之,要是你去踢它或虐待它,马就不会帮助你 。人类在上千年以前就为这个过程发明了一个词,叫“驯服” 。而现在我们对 AI 说“请”,就是寄希望于 AI 能感受到人类的礼貌,从而产生更精准的答案 。当这些模型展现出我们不喜欢的行为时,我们对待它们的方式就要像对待不听话的狗一样 。
对齐问题的解决关键是让 AI 真正消化完信息