OATS-通过稀疏与低秩分解实现异常值感知的剪枝

(ICLR 2025)

算法

OATS假定模型权重$W\approx S+L$,其中S为稀疏,$||S_0||\le k$;L为低秩,$Rank(L)\le r$。

对于此,可以转化为$\min ||W-S-L||_F^2$的求解问题。

OATS利用前人提出的交替阈值算法,该算法通过奇异值阈值处理迭代地交替求解低秩项 L,并通过硬阈值处理求解稀疏项 S。
$$
HardThreshold(A,k)=M\odot A
$$
在执行HardThreshold时,也可以进行 HardThreshold和N:M稀疏性。

改进

单独使用交替阈值化方法会产生次优结果,因为大规模 Transformer 的活性值呈现出少量大振幅特征(Massive Activations),改变这些特征(例如通过稀疏和低秩近似)会对模型性能产生负面影响。

所以作者还另定义了一个矩阵D,用了捕捉活性值的二阶矩。
$$
D=\sqrt{diag(X^TX)}
$$
然后变为$WD\approx S+L$。

参数指定

最终流程为:

实验

和其他量化相比:

秩比和迭代次数对 OATS 性能的影响:

稀疏项和低秩项捕捉了图像的不同区域:


OATS-通过稀疏与低秩分解实现异常值感知的剪枝
https://lijianxiong.space/2025/20250724/
作者
LJX
发布于
2025年7月24日
许可协议