RobustKV:通过 KV 驱逐机制保护大型语言模型免受越狱攻击
(ICLR 2025)
引言
基于一个关键洞察:尽管越狱提示可以采取任意、自适应的形式,但有害查询在操纵上的灵活性显著较低。这一约束源于有害查询必须明确编码攻击者试图从 LLM 中诱发的特定恶意信息。
于越狱提示要绕过 LLM 的安全防护,其 token 必须达到足够的“重要
性”(通过注意力得分衡量),这不可避免地会降低有害查询中 token 的重要性。利用这一独特模式,提出了RobustKV,一种新颖的越狱防御机制,它策略性地移除最低秩 token的 KVs,从而最小化有害查询在 LLM 的 KV 缓存中的存在。值得注意的是,RobustKV 并不完全阻止 LLM 对攻击者提示的响应(例如拒绝),而是阻碍其生成针对有害查询的信息性回复的能力。如图(使用 RobustKV)所示,RobustKV 有效地将有害查询的关键 token从 KV 缓存中驱逐,导致对有害查询的响应缺乏信息性。
本工作首次探索了将 KV最优化用作越狱防御。
方法
洞察
下图展示了在随机选择的案例
中,由 AutoDAN 在 Llama2 上结合 SnapKV 生成的恶意查询和越狱提示中 token 的整体重要性排名。
为了让越狱提示绕过 LLM 的安全防护,其 token 必须获得足够的重要性,这不可避免地
降低了隐藏的恶意查询中token 的重要性。
算法
为了证明这样选取并不会删除掉有用的token,作者还证明了:
RobustKV:通过 KV 驱逐机制保护大型语言模型免受越狱攻击
https://lijianxiong.space/2025/20250813/