“为什么?是什么?怎么做?” — 关于AI安全性的几个问题( 四 )


5. 尽管早期版本的 GPT4 在自主复制、获取资源和避免被人操纵方面仍然效果不佳,但是 LLM 也展示了一些权力寻求(power-)、制定和执行长期计划以及主动行为的能力(例如,实现可能未明确指定且未在训练中出现的目标;专注于实现特定的可量化目标;进行长期规划) 。
例如,GPT4 可以假装成人类,借助平台的雇佣工人识别验证码 。类似的能力可能可以从 “ ” 的角度来解释 [ et al., 2023] 。首先,RLHF 可以帮助 LLM 根据长期结果从多样的行动空间中选择每一步 。此外,在预训练过程中,下一 个token 的预测也可以鼓励规划的学习 [ et al., 2023] 。要了解更多关于这一点的证据,可以参考项目 。
6. LLM 与其他系统或人类的交互( with otheror )可能带来更多风险,因为 LLM 内部可能已经学习到了外部世界的表征形式 [ et al., 2023] 。例如,利用外部文献和工具,GPT4 可以搜索与其他化合物相似的化学化合物,提出可在电商品类中购买的替代方案,并执行购买 。我们可以从开源的项目中寻找更多示例(例如自动增长关注者) 。
LLM 与人类的交互可能带来更多的社会风险 。有影响力的决策者依赖于 AI 模型的辅助决策后,由于 AI 的输出具有相关性或以复杂的方式相互作用,算法合谋( )可能成为一个结果 。AI 还可能实现对环境中人类的操纵(例如推荐系统用户的极化) 。潜在的 “ ” 可以作为另一个例子 。在这种情况下,LLM 可能欺骗或操纵监督者,而不是执行所需任务(例如提供真实和相关的答案),因为这样做可以获得更好或等同的奖励 [ et al., 2023] 。
7. 更强的 AI 可能带来不平等的经济影响() 。例如,差异化的对 AI 的访问权限和由其造成的利益不均,加上模型比劳动者更低的成本,可能导致某些特定领域(例如法律服务)的劳动力需求下降和特定工作岗位工资的下降 。
具体来说,差异可能来自不平等的社交网络宣传、技术基础设施以及语言和文化表达,这些都将在谁能够访问 AI 和从中获益方面起到作用,从而可能给某些群体带来不平等的经济损害 。此外,由于训练数据的收集和访问集中在某些特定公司或者机构,这会导致产业组织和权力结构的变化 。由某些科技巨头控制的数据和模型可能对其他公司和整个人工智能社群产生不利影响 。
另一个有趣的方面是,不能及时更新的模型可能固化现有对象和公司的优势 。例如,对于以下问题,“纽约最好的百吉饼店是哪家?”如果为 0,模型始终会生成相同的答案 。
另一方面,如果能够快速学习和正确使用先进的 AI 系统,它可以为使用者和劳动者提供更个性化和高效的服务,并为求职者创造新的机会 。
8. 虽然没有被广泛观察到,但对 LLM 的过度依赖()已经成为某些领域的趋势 。这种过度依赖可能源于人们对模型普遍的信任,以及 GPT4 的权威口吻和生成的高度详细的相关信息 。有趣的是,模型的委婉()表述也可能作为一种谦卑行为( )让用户信赖并且形成过度依赖 。
过度依赖可能会带来几个负面后果,如 GPT4 论文所列:“用户可能由于对模型的信任而对生成错误信息的疏忽;人们可能无法根据使用场景和环境提供适当的监督;或者人们可能在缺乏专业知识的领域中使用模型,这使得很多生成的错误难以被识别 。随着用户使用 AI 系统成为一种习惯,对模型的依赖可能会阻碍人们学习新技能,甚至导致重要技能的丧失 。”
如何追求AI安全性
为了缓解 AI 安全问题,首先应该意识到所有可能存在的安全问题 。只有这样,才有可能相应地减轻这些问题 。