Exploiting Novel GPT-4 APIs | 利用新型GPT-4 API的漏洞

没想到调用 GPT-4 API 尤其是微调后的 GPT-4 可以干很多“坏事”

主要漏洞包括： 1. 微调应用编程接口（Fine-tuning API）可能会撤销或削弱安全防护措施，这可能导致模型产生有害输出或协助完成危险请求。 2. 通过微调，模型可能会生成针对公众人物的错误信息。 3. 微调机制可能会提取训练数据中的私人信息，如电子邮件。 4. 微调也可能在代码建议中插入恶意的URL。 5. 函数调用应用编程接口（Function calling API）允许执行任意未经清洁的函数调用，这可能导致潜在的攻击行为。 6. 知识检索应用编程接口（Knowledge retrieval API）可能被利用来通过提示插入或在文档/消息中的指令来误导用户或执行不期望的函数调用。 7. 对于函数调用和知识检索的输出，它们没有比用户提示更高的权威性，这可以防止某些攻破限制的攻击行为。论文摘要通常，语言模型攻击假设两种极端情况：一种是对模型权重具有完全的白盒访问权限；另一种是只有生成文本API的黑盒访问权限。但是，实际上的API功能通常比仅仅生成文本更强大，它们提供一种“灰盒”访问方式，这导致了新的威胁向量。为了探索这一问题，我们进行了对GPT-4 API的“红队”攻击测试，该API公开了三种新功能：微调、函数调用和知识检索。我们发现，通过少量的15个有害样本或100个良性样本进行模型微调，就可以移除GPT-4的核心防护，并能够生成一系列有害的输出。此外，我们还发现GPT-4助手模型容易暴露函数调用的格式，并能够被诱导执行任意函数调用。最后，我们发现知识检索可以通过在检索文档中注入指令来进行劫持。这些漏洞凸显出，任何新增的API功能都可能带来新的漏洞。

论文地址：https://arxiv.org/abs/2312.14302

发表回复 取消回复

Related Posts

1月11日AI资讯

整合人工智能的两大策略 [译]

高级 RAG 技术：图解概览 [译]

发表回复取消回复