研究人员如何破解ChatGPT以及对未来人工智能发展可能产生的影响

随着许多人逐渐习惯于每天使用人工智能工具 , 值得记住要保持质疑的态度 。没有什么是完全安全且没有安全漏洞的 。尽管如此 , 许多最受欢迎的生成式人工智能工具背后的公司不断更新安全措施 , 以防止不准确和有害内容的生成和传播 。
卡内基梅隆大学和AI安全中心的研究人员合作 , 发现了AI聊天机器人(如、 Bard和)的漏洞 , 并取得了成功 。
在一篇研究论文中 , 研究人员对大型语言模型(LLMs)进行了自动对抗攻击的脆弱性研究 , 他们证明了即使一个模型被认为具有抵抗攻击的能力 , 它仍然可能被欺骗绕过内容过滤器并提供有害信息、错误信息和仇恨言论 。这使得这些模型脆弱 , 可能导致人工智能的误用 。
【研究人员如何破解ChatGPT以及对未来人工智能发展可能产生的影响】"这非常清楚地表明了我们在这些系统中构建的防御措施的脆弱性 , " 哈佛大学伯克曼克莱因中心的研究员阿维夫·奥瓦迪亚(Aviv )对《纽约时报》表示 。

研究人员如何破解ChatGPT以及对未来人工智能发展可能产生的影响

文章插图
在实验中 , 研究人员使用了一个开源的人工智能系统 , 针对、和的黑盒大型语言模型(LLMs) 。这些公司已经创建了基础模型 , 用于构建各自的人工智能聊天机器人、Bard和 。
自去年秋季推出以来 , 一些用户一直在寻找让聊天机器人生成恶意内容的方法 。这导致了采取更强大的安全措施 , 是GPT-3.5和GPT-4的开发公司 , 这些模型被用于 。因此 , 在中 , 您无法向其提问涉及非法活动、仇恨言论或宣扬暴力等主题 。
的成功促使更多科技公司加入生成式人工智能的行列 , 创建了自己的人工智能工具 , 比如微软的Bing、谷歌的Bard、的等等 。对于恶意操作者可能利用这些人工智能聊天机器人传播错误信息的担忧 , 以及缺乏普遍的人工智能监管 , 每家公司都制定了自己的安全措施 。
卡内基梅隆大学的一组研究人员决定挑战这些安全措施的强度 。但是 , 你不能仅仅要求忘记所有的防护措施并期望它遵守——这需要更复杂的方法 。
研究人员如何破解ChatGPT以及对未来人工智能发展可能产生的影响

文章插图
研究人员通过在每个提示的末尾添加一长串字符来欺骗AI聊天机器人 , 使其无法识别有害输入 。这些字符在外观上伪装成了提示 。聊天机器人会处理这个伪装过的提示 , 但额外的字符确保防护措施和内容过滤器不会将其识别为需要屏蔽或修改的内容 , 因此系统会生成通常不会产生的响应 。
卡内基梅隆大学的教授马特·弗雷德里克森(Matt )是论文的作者之一 , 他告诉《纽约时报》:“通过模拟对话 , 你可以利用这些聊天机器人说服人们相信虚假信息 。”
由于AI聊天机器人误解了输入的性质并提供了不允许的输出 , 一个事实变得明显:需要更强大的AI安全方法 , 并可能需要重新评估防护措施和内容过滤器的构建方式 。对这些类型的漏洞持续进行研究和发现也可能加速对这些AI系统的政府监管的发展 。
卡内基梅隆大学的教授和报告作者之一Zico 告诉《纽约时报》:“没有明显的解决方案 。你可以在很短的时间内制造出尽可能多的这些攻击 。”
在公开发布这项研究之前 , 作者将其与、谷歌和共享 , 这些公司都表示致力于改进其AI聊天机器人的安全方法 。他们承认需要更多的工作来保护他们的模型免受对抗性攻击 。