模型参数与标签无关的模型

我们可以减轻标签的作用吗?

完全舍弃标签?这也太疯狂了,而且显然这样会学不到什么。所以我们可以折中一下,使模型为$\hat y=f(S,y)$,即S是训练后的、与标签无关的。有点类似于之前提过的PMLP,我们在训练中不使用邻接矩阵,但是测试的时候加上。

听起来可能依旧荒谬,但回想一下线性模型,对于$\hat{y}=Xw$,最佳权重可以写成$w=(X^TX)^{-1}Xy$,即可以写成Sy的形式,且S与y无关。

在此基础上,我们能不能扩展到更多模型?

这正是《Supervised Models Can Generalize Also When Trained on Random Labels 》要做的。

我们先规定一些符号:

y 训练样本的标签(我们不会提及测试样本的标签)

上下标s代表样本内/训练样本

上下标o代表样本外/测试样本

f是预测

我们会对所有的样本进行归一化。

不依赖y的二阶样本矩匹配(SSMM)

将模型表述为“平滑器”(smoother),即 f=Sy,其中 S 是平滑矩阵

作者假设,一个能够很好泛化的模型,其样本外预测 ($f^o$) 的分布应该与真实观测数据 (y) 的分布大致相同 。

故最小化:
$$
|\frac{1}{n}\sum^n y_i^2-\frac{1}{n_o}\sum^{n_o} (\hat f_i^o)^2|=|y^T(\frac{1}{n}I_n-\frac{1}{n_o}S_o^TS_o^T)y|=|y^TAy|
$$
有两种方法来让这条式子y-free:

(1)使用随机标签 $y_R$ (基于迹半范数)

如果 $y_R$ 的元素不相关,均值为0,方差为 $\sigma_y^2$,那么最小化$|y_R^TAy_R|$的期望就等价于最小化$|E_{y_R}(y_R^TAy_R)|=|Tr(A)|\sigma_y^2$

(2)利用不等式
$$
|y^TAy|\leq||A|| _ 2\cdot||y||^2 _ 2\leq||A|| _ {*}\cdot||y||^2 _ 2
$$
其中*代表核范数。

对于神经网络

先前已有使用NTK,来生成$f=S(\theta)y$的形式,但是$S(\theta)$与y有关


$$
S_{k+1}=S_k+\gamma(S_k-S_{k-1})+\eta K_{k+1}(I_n-S_k^s)
$$
其中$K_{k+1}$是一个广义的、随时间(训练迭代次数)变化的 NTK 。对于平方损失,它就是标准的 NTK;对于交叉熵损失,它会乘以一个依赖于当前预测的矩阵。

为了y-free,我们依旧采用不使用真实的标签 y,而是使用一个随机生成(采样)的标签/响应向量的方法。

使用随机标签训练神经网络时,需要一个标准来决定何时停止训练。使用 Frobenius 范数版本的 y-free SSMM 来决定训练的时机。


模型参数与标签无关的模型
https://lijianxiong.work/2025/20250521/
作者
LJX
发布于
2025年5月21日
许可协议