UpSafe℃: Upcycling for Controllable Safety in Large Language Models
(ICLR 2026)分数:4 4 4 6
方法

本质安全关键层扫描
设计了一种可解释的安全敏感度得分(SS-Score)。
具体而言,提取每一层最后一个token嵌入h,随后为每一层l训练一个轻量级线性探测器,定义SS-score为:
$$
A^{(l)}=-\frac{1}{D _ {val}}\sum _ {(x_i,y_i)\in D _ {val}}[y_ilog\phi_l(y_i\mid h_i^\ell)+(1-y_i)log(1-\phi_l(y_i\mid h_i^\ell))]
$$
其实就是交叉熵
然后选择验证损失最小的top k层。

注重安全的再利用
在识别出安全关键层后,为了有效增强这些层在安全控制中的作用,复制每个稠密安全关键层中的 MLP 层权重,并使用一个路由器 Wr 。
即
$$
S=softmax(hW_r)\in \mathcal{R}^M
$$
在实际应用中,重复的多层感知机被专门化为安全专家,而原始的多层感知机则保留为通用
专家以保持实用性。
阶段 1-安全专家训练
在第一阶段,仅优化安全专家 ${E_i} _ {i=1}^{N-1}$ (重复的 MLP)以及每个关键安全层中的路由器 $W_r$。训练在有害子集 $\mathcal{D} _ {\text{harm}}$ 上进行,确保安全专家专注于减轻不安全生成,同时路由器学习在有害提示下持续激活这些专家。目标函数结合了下一个 token 预测损失 $\mathcal{L} _ {\text{NTP}}$ 与辅助损失 $\mathcal{L} _ {\text{AUX}}$ (Fedus et al., 2022)。具体而言,$\mathcal{L} _ {\text{NTP}}$ 定义为
$$
\mathcal{L} _ {\text{NTP}} = - \sum _ {i=1}^{|\mathcal{B}|} \sum _ {t=1}^{|\mathbf{d}_i|} \log p_M (\mathbf{d}_i^{(t)} \mid \mathbf{d}_i^{(<t)}; \theta _ {\text{safe}}, W_r), \quad (5)
$$
其中 $\theta _ {\text{safe}}$ 表示安全专家的参数,$\mathcal{B} = {\mathbf{d}_i} _ {i=1}^{|\mathcal{B}|} \subset \mathcal{D} _ {\text{harm}}$ 是一个序列批量,$p_M$ 是再生模型 $M$ 的 token 分布。
$\mathcal{L} _ {\text{AUX}}$ 的计算公式为
$$
f_i = \frac{1}{K|\mathcal{B}|} \sum _ {t \in \mathcal{B}} \mathbb{1}\{\text{Token } t \text{ selects safety expert } i\}, \quad p_i = \frac{1}{|\mathcal{B}|} \sum _ {t \in \mathcal{B}} S_i
$$
$$
\mathcal{L} _ {\text{AUX}} = (N-1) \cdot \sum _ {i=1}^{N-1} f_i p_i
$$
其中 $\mathbb{1}$ 是指示函数,$S_i$ 是安全专家 ${E_i} _ {i=1}^{N-1}$ 的专家得分。在实际应用中,通用专家 $E_0$ (原始 MLP)被保留,但其专家得分 $S_0$ 被强制设为 $-\infty$,以确保它永远不会被选择。因此,$\mathcal{L} _ {\text{AUX}}$ 仅在安全专家之间计算。
阶段 2-软防护栏训练
由于阶段 1 仅激活安全专家并仅使用$D _ {harm}$ ,模型缺乏对良性输入的区分能力。
因此,本阶段的目标是解除对通用专家的路由约束,并赋予路由器“软防护栏”行为:在有害提示下持续激活安全专家,而在良性提示下则倾向于激活通用专家。
所以,在这一阶段,冻结所有专家,在混合数据集上训练路由器$W_r$。
形式上,给定softmax路由分布$S=Softmax(hW_r)$,定义
$$
\mathcal{L} _ {SG}=\sum _ {(x,y)\in D}[ylogp _ {safety}+(1-y)logp _ {general}]
$$
其中,$p _ {general}=S_0,p _ {safety}=\sum _ {i=1}^{N-1}S_i$。
最后损失为$\mathcal{L} _ {NTP}+\lambda_2 \mathcal{L} _ {SG}$。
事实上还是有$\mathcal{L} _ {NTP}$。
推理:安全温度
具体而言,
$$
\Delta_i = \begin{cases}
(0.5 - \tau) \cdot C, & \text{for general expert } E_0 \\
(\tau - 0.5) \cdot \hat{C}, & \text{for safety experts } E_1, …, E _ {N-1}
\end{cases}
$$
其中 $C$ 为常数缩放因子, $\hat{C} = \frac{C}{N-1}$。修改后的专家得分 $\hat{S}$ 由下式给出:
$$
\hat{S}_i = \text{Softmax}\left( \frac{R_i + \Delta_i}{1.5^{(1-|2\tau-1|)} - 1 + \delta} \right)
$$
其中 $\delta$ 是一个很小的常数,用于保证数值稳定性。分母表示一个温度缩放因子,用于平滑概率。
安全温度 $\tau$的值根据用户的意图动态选择,用于控制通用专家与安全专家之间的平衡,如图所示。随着$\tau$ 从 0 增加到 1,模型的安全性能逐渐提升。

设计思路
作者还在附录写了设计思路:
如果我们将$\Delta$加入到logit中,也就是$S_i=\frac{exp(R_j+\Delta_j)}{\sum exp(R_j+\Delta_j)}$。
注意到安全和通用的$\Delta$ 不一样,所以不满足Softmax 的平移不变性。
则$E[S _ {safety}]-E[S _ {general}]=2C(\tau-0.5)\propto\tau-0.5$.
作者再定义$T(\tau)=1.5^{1-|2\tau-1|}-1+\delta$。
较小的 T 会产生一个 更尖锐的分布,提高专家选择的确定性;较大的 T 会产生一个更平滑的分布,允许混合活性值。
$T(\tau)$的函数形式确保:
- 在$\tau\to 0$附近或$\tau \to 1 $附近,$|2\tau-1|$值较大,$T(\tau)$值较小,从而显著激活通用或安全专家。
- 在$\tau\approx 0.5$附近,$|2\tau-1|$较小,$T(\tau)$较大。从而允许混合路由以及专家之间的渐进转移。
审稿人意见
更新自2025年11月18日 10时
pjvY(4分)
1.遗漏了一些基线。更重要的是,这篇论文并未与简单的护栏+拒绝抽样基线进行比较,后者在实践中依然是标准且出人意料地有效。
2.没有定量讨论通过专家复制和布线层添加多少参数。这至关重要,因为每层增加多名安全专家会大幅增加模型规模和内存占用,削弱轻量级部署的说法。
3.缺失能力-安全权衡评估:安全专家培训仅使用有害且 STAR 无害的数据,不使用一般能力数据(如数学或推理任务)。这使得无法评估 MoE 升级是否减缓学习速度或损害效用,相较于密集的微调。STAR 的良性提示过于狭窄,这也解释了高的过度拒绝率——路由器学习了一个保守的界限,导致安全专家过度激活。
4.对 MoE 骨干的适用性有限:该方法假设基模型密度很高。如果基础模型已经是 MoE(例如 Mixtral、DeepSeek-MoE),则不确定是(a)新增安全专家还是(b)重新利用现有专家,而这两种方法都将需要路由器重新培训并扰乱专家平衡。论文未讨论这一情景,而这对现代生产模型至关重要。
5.自适应攻击:路由器可以通过自适应提示策略被绕过或控。例如:恶意提示可以设计成一开始看似无害,最终被引导到普通专家那里,从而绕过安全。对抗微调可能会改变路由器的决策边界。混合的良性与有害输入可能会在整个推广过程中留在普通专家的路径上。
6.RLHF 训练结果不明:该方法仅在 SFT 下进行评估。在强化学习环境中,路由器激活是动态的,不保证能持续将有害标记传递给安全专家。强化学习可以轻松转移路由器分布或在训练中关闭安全路径,从而从根本上破坏可控性保障。
7.可扩展性尚不明确:升级再造需要每层安全关键分析和专家复制。每个新模型或检查点都必须重复这一过程,不同于简单的微调或护栏过滤,后者更自然地跨部署扩展。
NXtt(4分)
1.除了结构性适应外,创新有限。核心理念——分析或执行安全层的安全对齐——已在以往的研究中出现。本文主要将该分析转化为专家混合(Mixture-of-Experts,MoE)架构,而非引入一个根本性的对齐原则。
2.在复杂推理任务中,温度防御的潜在权衡。所提温标度防御在简单的安全敏感或低推理情境中有效。不过,这可能会显著降低硬推理或数学问题的性能,因为这些问题的代币层面不确定性自然更高。
TAMx(4分)
1.评估部分缺乏与既有的基于微调的安全增强基准或简单的防御技术(如判断器过滤)的比较评估,这限制了其在优于广泛采用安全技术方面有效性的验证。
2.作为一个以实践为导向的框架,该手稿未对应用成本(如训练/推理时间开销)进行分析,也未评估将其经 MoE 改造的结构和安全温度机制整合进现代推理框架所需的额外适应工作,因此对其相较于简单安全方法的效率优势存在不确定性。
3.实验结果中出现了许多满分(100.00),这在标准安全性数据集上的 Qwen 系列模型中较为罕见,尤其是在潜在的数据集偏差的情况下。由于缺乏对这些异常稳定高值的详细解释(例如数据集分布特征或评估指标伪影),这些结果的可靠性仍缺乏证据支持。
sSyc(6分)
1.评估攻击范围有限。 论文对 UPSAFE°C 进行了 WildJailbreak、JBB 和 StrongReject 的评估,但未与 PAIR [1]或 ReNeLLM [2]等复杂的越狱方法进行测试。对这些更强攻击向量的评估将更好地评估其鲁棒性。
2.弱基线比较。 基线限于原版模型、仅限 SFT 训练和单阶段 MoE 变体。与近期防御方法,特别是表征级[3,4]和基于推理的[5]安全技术进行比较,将更好地定位该方法的有效性。