RobustKV：通过 KV 驱逐机制保护大型语言模型免受越狱攻击

（ICLR 2025）

引言

基于一个关键洞察：尽管越狱提示可以采取任意、自适应的形式，但有害查询在操纵上的灵活性显著较低。这一约束源于有害查询必须明确编码攻击者试图从 LLM 中诱发的特定恶意信息。

于越狱提示要绕过 LLM 的安全防护，其 token 必须达到足够的“重要
性”（通过注意力得分衡量），这不可避免地会降低有害查询中 token 的重要性。利用这一独特模式，提出了RobustKV，一种新颖的越狱防御机制，它策略性地移除最低秩 token的 KVs，从而最小化有害查询在 LLM 的 KV 缓存中的存在。值得注意的是，RobustKV 并不完全阻止 LLM 对攻击者提示的响应（例如拒绝），而是阻碍其生成针对有害查询的信息性回复的能力。如图（使用 RobustKV）所示，RobustKV 有效地将有害查询的关键 token从 KV 缓存中驱逐，导致对有害查询的响应缺乏信息性。