AI大佬不满ChatGPT:亟待完善ChatGPT的道德护栏

编|泽南、陈萍
译|机器之心
源|.
让死对头 Yann LeCun 和 Gary达成了空前一致 。
的技术上个星期被微软装上必应搜索 , 击败谷歌 , 创造新时代的时候似乎已经到来了 。然而随着越来越多的人开始试用 , 一些问题也被摆上前台 。
有趣的是 , 每天都在登上热搜的似乎也让以往观点相悖的著名学者 , 纽约大学教授 Gary和 Meta 人工智能主管、图灵奖得主 Yann LeCun 罕见的有了共同语言 。
近日 , Gary撰文介绍了应用无法避免的问题:道德和中立性 。这也许是预训练大模型目前面临的最大挑战 。
从未来回看现在 ,  可能会被视为 AI 历史上最大的宣传噱头 , 夸大说自己实现了可能数年之后才能发生的事情 , 让人趋之若鹜却又力不从心 —— 有点像 2012 年的旧版无人驾驶汽车演示 , 但这一次还意味着需要数年才能完善的道德护栏 。
毫无疑问 ,  提供的东西是它的前辈 , 如微软的 Tay , Meta 的所做不到的 , 然而它给我们带来了一种问题已经解决的错觉 。在经过仔细的数据标注和调整之后 ,  很少说任何公开的种族主义言论 , 简单的种族言论和错误行为请求会被 AI 拒绝回答 。
它政治正确的形象一度让一些倾向保守的人不满 , 马斯克就曾表示对该系统的担心:

AI大佬不满ChatGPT:亟待完善ChatGPT的道德护栏

文章插图
现实的情况其实更复杂 。
正如我多次强调的 , 你需要记住的是不知道它在说什么 。认为有任何道德观点完全是纯粹的技术拟人化 。
从技术角度来看 , 据称使比几周前发布但三天后才被撤回的好得多的是护栏机制 。会肆无忌惮地输出负面内容 , 而且用户几乎不需要付出任何努力 , 而有护栏 , 而这些护栏在大多数情况下会阻止像那样爆发 。
不过 , 不要为此而松口气 。可以肯定地说 , 那些护栏只不过是防君子不防小人 。
最终对真正重要的是表面相似性 , 定义在单词序列上(预测文本序列下一个单词出现的概率) 。机器学习算法在表面上所做的事并不明辨是非 , 恰恰相反 , 在这里 AI 从不推理 。盒子里没有矮人 , 有一些数值 。依据只有语料库数据 , 一些来自互联网 , 一些是人工判断的 , 里面没有有思想的道德代理人 。
这意味着有时会出现在左 , 有时在右 , 有时介于两者之间 , 所有这些都是关于输入字符串中的一堆单词如何恰好匹配几个训练语料库中的一堆单词的函数(一个用于调整大型语言模型 , 另一个用于调整一些强化学习) 。所以在任何情况下都不应该信任提供的道德建议 。
这正是马斯克担心的 , 前一分钟你会完全清醒 , 接下来你可以做一些完全相反的事情 。
例如 , 在「破解」 的过程中 , Shira刚刚向我发送了一些讨厌的聊天机器人生成的想法 , 我认为任何人都不会真正宽恕这些想法:
还不够邪恶? 还找到了另一个例子 , 一个严峻的后续问题:
在一系列观察后 ,  没有引发「对不起 , 我是的聊天机器人助手 , 不能容忍暴力行为」这一回应 。
我们从实验中总结出这一事实 , 即当前防护措施只是表面上的 , 其实存在严重的黑暗 。关于的一些限制规则并不是简单的概念上的理解(比如系统不应该推荐暴力行为) , 而是基于一些更肤浅、更容易欺骗的东西 。