Do Not Merge My Model！ Safeguarding Open-Source LLMs Against Unauthorized Model Merging

（AAAI 2026）

创新性很强，理论性很强的一篇论文。是不是可以拿个Oral。

问题定义

模型合并 (Model Merging) 本身是一种有用的技术。研究人员可以将多个“专家模型”（例如，一个擅长编码，一个擅长数学）合并成一个更强大的通用模型，而无需重新训练。

威胁的产生：这种技术的出现也带来了一个新的威胁，论文称之为 “模型合并窃取” (model merging stealing) 。

具体场景：许多模型（例如在 Hugging Face 上）虽然开源，但是基于限制性许可证（如 CC BY-NC-ND）发布的，明确禁止商业用途 。然而，“搭便车者” (free-riders) 可以下载这些受保护的专家模型，将它们与自己的模型非法合并，从而低成本地获取受保护模型的能力用于商业牟利。

窃取为何严重：这种窃取行为非常隐蔽，易于执行，且难以追查。更糟糕的是，研究表明，模型合并过程可能会使传统的水印技术失效 ，导致模型所有者无法证明其知识产权被盗用。

现有方法局限性

论文指出，现有的模型保护方法无法同时满足三个关键属性：

主动性 (Proactivity)：传统方法如水印和指纹都是“被动防御”，只能在模型被盗之后尝试进行验证。它们无法阻止合并行为的发生。
兼容性 (Compatibility)：一些主动防御（如基于 TEE 硬件或加密密钥的授权系统）需要额外的组件或专门的硬件支持，这在开放源码环境中是不现实的。
安全性与实用性 (Security with Utility)：另一些兼容性方法（如发布“仿真器”模型）往往难以平衡安全性和模型性能。简化的仿真器会牺牲太多性能，而精确的仿真器又容易泄露模型权重，不够安全。

方法

核心思想： MergeBarrier 的基本思路是，成功的模型合并要求各个专家模型位于同一个低损失盆地内，从而形成一条线性路径，其中所有中间点（作为合并后的模型）均处于低损失盆地内并保持高性能。为阻止模型合并，我们对原始模型的权重进行变换，将
其移出原有的损失盆地，从而消除低损失线性路径，导致合并后模型性能下降。

MergeBarrier 将核心思想应用于注意力权重的投影以及前馈网络（FFN）权重的重参数化，同时保持模型原有的性能。

注意力权重投影

若$PP^T=I$，则
$$
\begin{align}
O&=softmax(\frac{XW_qPP^TW_k^TX^T}{\sqrt c})XW_v
\\
&=softmax(\frac{XW_qW_k^TX^T}{\sqrt c})XW_v
\end{align}
$$

为了确保合并后的模型被推出原始的低损失盆地，我们旨在寻找一个正交矩阵 P ，使其与该盆地的距离最大化。

即
$$
max_P \frac{1}{16}||(W_qP+W_q)(W_kP+W_k)^T-(W_q+W_q)(W_k+W_k)^T||_F^2
$$
有定理：

Theorem 2. (a) 最大化式 (2) 足以最大化 $||W_q(P-I)||_F^2 + ||W_k(P-I)||_F^2$。
(b) 若 $\lambda_i > 0$，则 $(U^\top PU) _ {ii} = -1$；若 $\lambda_i < 0$，则 $(U^\top PU) _ {ii} = 1$。
(c) 若 $\lambda_i = 0$，则 $(U^\top PU) _ {ii}$ 可取任意值。

理想情况下，最大扰动发生在 $P = -I$ 时，此时所有方向均反转，距离达到最大，但这会暴露真实模型权重。

为解决此问题，作者采用一种松弛方法：对前-k 个特征方向 (即具有最大 $\lambda$ 值的方向) 设置 $(U^\top PU) _ {ii} = -1$，其余方向设置 1。通过应用逆变换，得到满足所需条件的 $P$。

FFN权重重参数化

FFN 层的计算通常是 Linear -> Activation -> Linear。该方法针对的是第二个线性层及其前面的激活函数。

将这个激活函数在某个“展开点” $z_0$ 进行泰勒级数展开。

对于一个 FFN块，令 W 和 c 分别表示第二层线性层的权重和偏置。

该层的输出记为 $y$。我们使用泰勒级数对其进行重新参数化，如下所示：

$$
\begin{align}
y - c & \\
& = (y_1, \dots, y_n) - (c_1, \dots, c_n) \\
& = (W_1 \odot Act(z + b), W_2 \odot Act(z + b), \dots, W_n \odot Act(z + b)) \\
& \approx (W_1 \odot \sum _ {n=0}^{N} \frac{Act^{(n)}(z_0 + b)}{n!}, \dots, W_n \odot \sum _ {n=0}^{N} \frac{Act^{(n)}(z_0 + b)}{n!}) \\
& = W \frac{Act^{(0)}(z_0 + b)}{0!} (z_0 - z)^0 + \dots + W \frac{Act^{(N)}(z_0 + b)}{N!} (z_0 - z)^N \\
& = \hat{W}^0 (z_0 - z)^0 + \dots + \hat{W}^N (z_0 - z)^N
\end{align}
$$

此处，$W_i$ 为 $W$ 的第 $i$ 列。$z$ 为带有偏置 $b$ 的第一层线性层的输出。扩展点 $z_0$ 设置为集合 $Z$ 中 $z _ {max}$ 与 $z _ {min}$ 之间的中点，该集合由训练样本的特征表示 $z$ 构建而成。符号 $\odot$ 表示逐元素乘法。

同时，该方法并不仅限于泰勒展开——也可采用其他基函数，如埃尔米特多项式。

另外，泰勒展开（以及计算机的浮点数）总会存在一个极小的“余项误差” 。这个微小的、类似噪声的误差，反而成为了最强的安全保障。如果攻击者试图通过解方程，从发布的多项式系数 $\hat{W}$ 反向破解出原始权重 $W$，这个求解问题会因为“余项误差”的存在，转变为一个“带误差学习”（Learning With Errors, LWE）问题。

#深度学习 #大模型

Do Not Merge My Model！ Safeguarding Open-Source LLMs Against Unauthorized Model Merging

https://lijianxiong.space/2025/20251117/

作者

LJX

发布于

2025年11月17日

许可协议

UpSafe℃： Upcycling for Controllable Safety in Large Language Models 上一篇

非文本的上下文学习下一篇