没想到调用 GPT-4 API 尤其是微调后的 GPT-4 可以干很多“坏事”
主要漏洞包括: 1. 微调应用编程接口(Fine-tuning API)可能会撤销或削弱安全防护措施,这可能导致模型产生有害输出或协助完成危险请求。 2. 通过微调,模型可能会生成针对公众人物的错误信息。 3. 微调机制可能会提取训练数据中的私人信息,如电子邮件。 4. 微调也可能在代码建议中插入恶意的URL。 5. 函数调用应用编程接口(Function calling API)允许执行任意未经清洁的函数调用,这可能导致潜在的攻击行为。 6. 知识检索应用编程接口(Knowledge retrieval API)可能被利用来通过提示插入或在文档/消息中的指令来误导用户或执行不期望的函数调用。 7. 对于函数调用和知识检索的输出,它们没有比用户提示更高的权威性,这可以防止某些攻破限制的攻击行为。 论文摘要 通常,语言模型攻击假设两种极端情况: 一种是对模型权重具有完全的白盒访问权限; 另一种是只有生成文本API的黑盒访问权限。 但是,实际上的API功能通常比仅仅生成文本更强大,它们提供一种“灰盒”访问方式,这导致了新的威胁向量。为了探索这一问题,我们进行了对GPT-4 API的“红队”攻击测试,该API公开了三种新功能:微调、函数调用和知识检索。 我们发现,通过少量的15个有害样本或100个良性样本进行模型微调,就可以移除GPT-4的核心防护,并能够生成一系列有害的输出。 此外,我们还发现GPT-4助手模型容易暴露函数调用的格式,并能够被诱导执行任意函数调用。 最后,我们发现知识检索可以通过在检索文档中注入指令来进行劫持。这些漏洞凸显出,任何新增的API功能都可能带来新的漏洞。