无人能构想出人工智能的未来 | 对话伯克利顶级学者 Stuart Russell( 三 ) _人工智能

《新程序员》：根据皮克斯的想象，我们可能会在未来成为《瓦力》（《Wall-E》，又译《机器人总动员》）里坐在漂浮椅子上的胖子（如图 3 所示），对吧？
：Wall-E 是人们担心的众多反乌托邦式未来之一，但没人能描述出乌托邦版本的未来是什么样子的。我问过各种各样的人，但哪怕是那些从事解答此类问题的专家，也无法想象要怎么在未来的地球上建立一个理想的乌托邦。
图 3 电影《瓦力》中无法行走的人类
在我看来，绝大多数人并不希望生活在一个由AI 代替人类执行思考的世界。在诸如计算、博弈等智力成就的领域，AI 系统已经远远超过了人类。然而，尽管计算机在国际象棋方面胜过人类，但国际象棋仍然很流行，因为它是一种消遣，是一种游戏，是日常生活的点缀。
我们正处于一辆行驶的巴士上，司机能开车只是因为他们碰巧能够掌握这项技术。作为这辆巴士的乘客，我认为担心未来的前进方向是非常合理的。
“驯服”大语言模型之前
让我们先学习怎么驯服动物
对于人工智能，人类应该处在控制地位。

文章插图
——
《新程序员》：想用好 GPT 离不开优秀的提示词（）。您认为提示工程成功的关键原则或策略是什么？你相信以后会存在“完美提示词”或最佳解决方案吗？
：我不认为存在任何从工程学角度指导提示工程的原则，但提示工程确实可以借鉴传统工程的经验。我的研究团队中有一位科学家曾花了很多时间与 GPT 一起工作，试图命令它做一些事情。他相信，如果礼貌地请求 GPT，输出效果会更好。
但是——天呐，为什么我们要对机器说“请”呢？为什么仅仅在提示中加个“请”，就能让机器展现完全不同的行为？这些都是基于我们的实践经验得出的观察，相当令人费解。
我曾提出过一个假设：这些AI 系统可能存在多重人格的现象，它们的训练目的是模仿许多不同的人类个体。从技术角度来看，我们通常称之为混合模型。实际上，混合模型是多个预测器的综合，每个预测器都为特定类型的文本设计。想象一下，如果我们用英语和中文进行训练，我们就可以得到两个高效的模型，一个在英语上表现突出，另一个在中文上出类拔萃。但实际情况是，现在存在着数以万计的各种模型和大量的文本内容，包括篮球比赛报道、议会演讲记录、浪漫小说描写和情书等，多不胜数。你很难归纳出模型中的哪些文本为你提供了价值。
据我判断，这些礼貌行为引发的效果，是因为它们激发了 AI 系统中“图书管理员”的人格。我们期望系统的这些组成部分更有可能提供有价值、具有广博知识并尽力给出正确回答的预测，主要是因为不同类型的文本和对话与这类模型的模式相匹配。当然，这仅仅是一种假设。
因为我们不了解黑盒的内部工作原理，所以每当涉及黑盒模型时，情况就会变得奇怪。我们现在试图像对待动物一样让大型模型提供帮助，这个过程被称为“从人类反馈中进行的强化学习”（RLHF）。
众所周知，如果你想命令马，就必须保持友善，礼貌地对待它；反之，要是你去踢它或虐待它，马就不会帮助你。人类在上千年以前就为这个过程发明了一个词，叫“驯服” 。而现在我们对 AI 说“请”，就是寄希望于 AI 能感受到人类的礼貌，从而产生更精准的答案。当这些模型展现出我们不喜欢的行为时，我们对待它们的方式就要像对待不听话的狗一样。
对齐问题的解决关键是让 AI 真正消化完信息