Stealing Large Language Models: 关于对ChatG( 二 )


我们思考一下给我们的回复,就可以发现由于采用了 --as-a-(MLaaS),我们是没办法拿到任何和模型有关的内容的,所以黑盒攻击就成了唯一的选项 。
攻击目标
我们选取了代码总结,代码翻译,代码生成三种任务来进行研究 。
我们希望我们的攻击能达到如下效果:
1. 通过窃取到的中等模型在任务表现上接近或者超过原有大模型;
2. 窃取的成本要在可控的合理范围内 。

Stealing Large Language Models: 关于对ChatG

文章插图
攻击方法
结合上文所讲,我们这里设计了 3 种不同的 query 方式,分别是 zero-shot/ in- / zero-shot CoT 。
并且结合了不同的筛选方法和训练方法,完成了对于在特定任务上的窃取 。
▲of the
实验结果
我们设计了如下四个问题来帮助我们理解模型窃取
- 问题1:在代码相关的任务中,模型窃取攻击的效果如何?
- 问题2:不同的策略和窃取方法的选择如何影响性能?
- 问题3:应该用多少次 query 来完成模型窃取?
- 问题4:超参数如何影响攻击的性能?
问题1:在代码相关的任务中,模型窃取攻击的效果如何?
我们表明通过窃取到的中等模型在任务表现上接近(CSyn)或者超过了(CSum,CT)原有大模型 。
问题2:不同的策略和窃取方法的选择如何影响性能?
通过对比我们发现:
1. 思维链在生成自然语言的任务上比较有用,在其他任务上作用很小,同时还可能导致生成的代码质量迅速下降;
2. 提供合适的上下文仍然是显著提高效果的好办法
问题 3 与问题 4 由于涉及到太多的细节,我这里就不细讲了,把结论贴出来:
在相同的训练能力下,窃取模型的性能超过了,并随着 query 次数的增加而不断提高 。然而,攻击者需要平衡成本和性能,以避免边际效应 。
采样超参数对查询结果没有太大影响,重要的是 query 的数量 。我们建议在上下文学习中使用三个例子,以保持其在合理成本下的有效性 。