模型参数与标签无关的模型

我们可以减轻标签的作用吗？

完全舍弃标签？这也太疯狂了，而且显然这样会学不到什么。所以我们可以折中一下，使模型为$\hat y=f(S,y)$，即S是训练后的、与标签无关的。有点类似于之前提过的PMLP，我们在训练中不使用邻接矩阵，但是测试的时候加上。

听起来可能依旧荒谬，但回想一下线性模型，对于$\hat{y}=Xw$，最佳权重可以写成$w=(X^TX)^{-1}Xy$，即可以写成Sy的形式，且S与y无关。

在此基础上，我们能不能扩展到更多模型？

这正是《Supervised Models Can Generalize Also When Trained on Random Labels 》要做的。

我们先规定一些符号：

y 训练样本的标签（我们不会提及测试样本的标签）

上下标s代表样本内/训练样本

上下标o代表样本外/测试样本

f是预测

我们会对所有的样本进行归一化。

不依赖y的二阶样本矩匹配（SSMM）

将模型表述为“平滑器”（smoother），即 f=Sy，其中 S 是平滑矩阵

作者假设，一个能够很好泛化的模型，其样本外预测 ($f^o$) 的分布应该与真实观测数据 (y) 的分布大致相同。

故最小化:
$$
|\frac{1}{n}\sum^n y_i^2-\frac{1}{n_o}\sum^{n_o} (\hat f_i^o)^2|=|y^T(\frac{1}{n}I_n-\frac{1}{n_o}S_o^TS_o^T)y|=|y^TAy|
$$
有两种方法来让这条式子y-free：

（1）使用随机标签 $y_R$ (基于迹半范数)

如果 $y_R$ 的元素不相关，均值为0，方差为 $\sigma_y^2$，那么最小化$|y_R^TAy_R|$的期望就等价于最小化$|E_{y_R}(y_R^TAy_R)|=|Tr(A)|\sigma_y^2$

（2）利用不等式
$$
|y^TAy|\leq||A|| _ 2\cdot||y||^2 _ 2\leq||A|| _ {*}\cdot||y||^2 _ 2
$$
其中*代表核范数。

对于神经网络

先前已有使用NTK，来生成$f=S(\theta)y$的形式，但是$S(\theta)$与y有关

即
$$
S_{k+1}=S_k+\gamma(S_k-S_{k-1})+\eta K_{k+1}(I_n-S_k^s)
$$
其中$K_{k+1}$是一个广义的、随时间（训练迭代次数）变化的 NTK 。对于平方损失，它就是标准的 NTK；对于交叉熵损失，它会乘以一个依赖于当前预测的矩阵。

为了y-free，我们依旧采用不使用真实的标签 y，而是使用一个随机生成（采样）的标签/响应向量的方法。

使用随机标签训练神经网络时，需要一个标准来决定何时停止训练。使用 Frobenius 范数版本的 y-free SSMM 来决定训练的时机。

#机器学习 #深度学习

模型参数与标签无关的模型

https://lijianxiong.space/2025/20250521/

作者

LJX

发布于

2025年5月21日

许可协议

5%>100%-Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks 上一篇

MCMC之前尘后事下一篇