模型参数与标签无关的模型
我们可以减轻标签的作用吗?
完全舍弃标签?这也太疯狂了,而且显然这样会学不到什么。所以我们可以折中一下,使模型为$\hat y=f(S,y)$,即S是训练后的、与标签无关的。有点类似于之前提过的PMLP,我们在训练中不使用邻接矩阵,但是测试的时候加上。
听起来可能依旧荒谬,但回想一下线性模型,对于$\hat{y}=Xw$,最佳权重可以写成$w=(X^TX)^{-1}Xy$,即可以写成Sy的形式,且S与y无关。
在此基础上,我们能不能扩展到更多模型?
这正是《Supervised Models Can Generalize Also When Trained on Random Labels 》要做的。
我们先规定一些符号:
y 训练样本的标签(我们不会提及测试样本的标签)
上下标s代表样本内/训练样本
上下标o代表样本外/测试样本
f是预测
我们会对所有的样本进行归一化。
不依赖y的二阶样本矩匹配(SSMM)
将模型表述为“平滑器”(smoother),即 f=Sy,其中 S
是平滑矩阵
作者假设,一个能够很好泛化的模型,其样本外预测 ($f^o$) 的分布应该与真实观测数据 (y) 的分布大致相同 。
故最小化:
$$
|\frac{1}{n}\sum^n y_i^2-\frac{1}{n_o}\sum^{n_o} (\hat f_i^o)^2|=|y^T(\frac{1}{n}I_n-\frac{1}{n_o}S_o^TS_o^T)y|=|y^TAy|
$$
有两种方法来让这条式子y-free:
(1)使用随机标签 $y_R$ (基于迹半范数)
如果 $y_R$ 的元素不相关,均值为0,方差为 $\sigma_y^2$,那么最小化$|y_R^TAy_R|$的期望就等价于最小化$|E_{y_R}(y_R^TAy_R)|=|Tr(A)|\sigma_y^2$
(2)利用不等式
$$
|y^TAy|\leq||A|| _ 2\cdot||y||^2 _ 2\leq||A|| _ {*}\cdot||y||^2 _ 2
$$
其中*代表核范数。
对于神经网络
先前已有使用NTK,来生成$f=S(\theta)y$的形式,但是$S(\theta)$与y有关
即
$$
S_{k+1}=S_k+\gamma(S_k-S_{k-1})+\eta K_{k+1}(I_n-S_k^s)
$$
其中$K_{k+1}$是一个广义的、随时间(训练迭代次数)变化的 NTK 。对于平方损失,它就是标准的 NTK;对于交叉熵损失,它会乘以一个依赖于当前预测的矩阵。
为了y-free,我们依旧采用不使用真实的标签 y,而是使用一个随机生成(采样)的标签/响应向量的方法。
使用随机标签训练神经网络时,需要一个标准来决定何时停止训练。使用 Frobenius 范数版本的 y-free SSMM 来决定训练的时机。