模型后面的层是否无用?

大模型的扩展始终强调深度增加,实证证据表明模型性能随着层数增加而提高——尽管收益递减。早年的深度学习也强调深度比宽度更重要,且深度能提高模型性能。

但是也有不少文章(比如博客之前写过的一些)指出,后面的层会扼杀模型原有的能力。

模型后面的层究竟执行什么样的任务?

这次进行四篇论文的串读。一篇ICLR2025,一篇NIPS workshop,两篇arxiv。

什么因素影响LLM的有效深度?

(NIPS workshop)《What Affects the Effective Depth of Large Language Models?》

分析对象: 研究了Qwen-2.5模型家族(从1.5B到32B)

分析技术: 使用了多种前沿的“可解释性”技术来探测模型每层的行为,包括

残差余弦相似度 (residual cosine similarity)

Logit透镜 (logit lens)

层跳过效应 (layer skipping)

残差擦除 (residual erasure) :通过用无信息的基线替换其残差向量

积分梯度 (integrated gradients) 。该指标将模型的预测结果分配到每个答案token上,并归因于每一层的贡献。计算所有答案token的输出logits相对于每一层和每个token位置的激活值的梯度。

引入两种定量指标来比较不同模型和数据集的有效深度。

对于残差余弦相似度,将各层、MLP和SelfAttention模块的相似度分数进行平均,并将有效深度识别为平均相似度从负转正的点。

对于logit镜头,使用两个指标:我们将有效深度定义为KL散度从最终输出下降到其最大观测值一半以下的层,或者定义为top‑5 token与最终输出首次超过0.3的层。

关键发现

  1. 规模的影响: 模型的“有效深度”确实随模型规模的增大而增加,但有效深度占总深度的比例却保持稳定 。这意味着,更大的模型只是在复制相同的层利用模式,而不是更深入地使用其层级 。模型计算存在一个明显的“相变”:早期层负责特征组合,而后期层(占了很大比例)仅在进行微小的调整 。
  2. 训练类型的影响: 研究者们本以为用于复杂推理的Long-CoT模型会“思考得更深” ,但结果令人惊讶:Long-CoT模型的有效深度与基础模型相比没有显著增加 。其推理能力的提升,很可能来自处理更长上下文的能力,而不是更深的单令牌(per-token)计算 。
  3. 任务难度的影响: 同样反直觉的是,模型的有效深度在所有不同难度的任务上都基本保持一致 。模型并不会因为问题更难(例如从常识问答到高中数学竞赛)就动态地使用更多的层 。

LLM如何使用它们的深度?

(arxiv 10月)《How Do LLMs USE THEIR DEPΤΗ?》

分析工具: 使用TunedLens(一种改进的Logit透镜) ,它能更准确地将模型的中间层隐藏状态解码为词汇表的概率分布 。
$$
TunedLens(h^l)=LogitLens(A_lh^l+b_l)
$$
TunedLens探测器被训练以最小化最终层概率分布与中间层概率分布之间的 KL 散度:
$$
argmin_{A_l,b_l}\quad E[D_{KL}(f_\theta(h^l)||TuneLens(h_l))]
$$
根据每个模型的词表 token 在语料库中出现的频率将其划分为四个桶

(i) Top1-10桶,包含语料库中前 10 个最频繁的 token,约占语料库的 23-25%,具体比例因模型而异

(ii) Top11-100 桶,包含接下来的 90 个最频繁的 token,约占语料库 token 的 16-20%

(iii)Top101-1000 桶,包含接下来的 900 个最频繁的 token,约占语料库 token 的 16-21%

(iv) Top1000+ 桶,包含其余的 token,约占语料库的 35-40%

大语言模型通过在早期层中将最频繁的 token 提升为最高秩的候选,来进行统计猜测。随着上下文信息在模型中不断深入,这些基于语料库统计的猜测逐渐被修正为适当的预测,此时低频 token 开始出现。

作者表明大模型是天然的动态深度模型,能够灵活利用其深度:在较浅的层次上执行较简单的任务(或子任务),而将更复杂的任务留到后续层完成。

作者还发现简单的、高频的功能词(如”the”)在浅层到中层就会被模型锁定 。而复杂的、信息量大的内容词(名词、动词)需要到更深的层才能被最终确定 。

多项选择: 这是一个清晰的两阶段过程 。阶段一(模型前半段): 模型识别出所有有效的选项(如A, B, C, D),并将它们提升到高排名 。阶段二(模型后半段): 模型在这些有效选项之间进行权衡与推理,最终确定答案。

以上被称为“复杂度感知的深度使用”。

深层网络的惊人无效性

(ICLR 2025)《The Unreasonable Ineffectiveness of the Deeper Layers》

该篇论文也关注LLM的深度利用问题,但它采取了更激进的“破坏性”实验方法——层剪枝 (Layer Pruning)

论文假设,如果一个层块的输入和输出表征非常相似(即这个块没做什么有意义的工作),那么它就可以被移除 。他们计算输入和输出之间的“角距离” (angular distance) ,并剪掉距离最小(最相似)的那个块 。

角距离为:
$$
d=\frac{1}{\pi}arccos\left(\frac{x^{(l)}\cdot x^{(l+n)}}{||x^{(l)}||\cdot|| x^{(l+n)}||}\right)
$$

简单启发式策略: 他们发现,越深的层,其表征与其相邻层越相似 。因此,他们尝试了一种更简单的策略:直接移除最后面的n层(保留最后一层LM head) 。

剪枝会破坏层与层之间的连接,可能损害模型太多性能了,故作者使用QLoRA在通用数据集(C4)上进行少量微调,以“治愈”这种损伤。

实验结果

在MMLU和BoolQ等知识问答基准上,Llama-2-70B的表现惊人地稳健。高达40-50%的层被移除后,模型的准确率几乎没有下降 。一旦超过这个临界点,性能会突然“崩溃”到随机猜测的水平 。

作者还考察了层剪枝对预训练最优化目标的影响,即在 C4 验证数据集的一个子集上评估的下一个 token 预测的交叉熵损失。

为了在具有不同词汇表大小的模型之间进行公平比较 V ,作者通过 log V 归一化损失,这对应于以均匀概率随机采样 token 时的损失。

也有相似的骤变现象,但是“治愈”操作可以修复。

表示之间的角距离

作者发现两点:

(i) 最小的距离出现在更深的块中,这意味着深层通常彼此非常相似,可以更容易地被丢弃

(ii) 最深的块——包含最后一层的块——之间的距离取极大值或接近极大值,这意味着永远不应丢弃最后一层。

不过也有一些例外,对于某些模型,例如 Phi-2-2.7B,或者某些模型中的最大块,例如 Llama-2-7B,最后的少数层似乎很重要。

直接移除最后面的n层

经过“治愈”后,简单的“移除最深层”策略,其效果与复杂的“相似度”策略几乎一样好 。这强有力地证明了,最深的那些层是“最不重要”的。

DR.LLM: LLM中的动态层路由

《DR.LLM: DYNAMIC LAYER ROUTING IN LLMS》

DR.LLM保持预训练LLM的权重完全冻结。它只为每一层额外添加一个极轻量的“路由器” (Router) 。

在推理时,每一层的路由器会检查当前的隐藏状态,然后做出三个决策之一:跳过 (Skip) 当前层,执行 (Execute) 当前层,或重复 (Repeat) 当前层(即再执行一次) 。

训练过程

作者首先使用蒙特卡洛树搜索 (MCTS),在训练数据上(如ARC和DART)为每个样本搜索“最优执行路径” 。MCTS的目标是找到在一定计算预算下,能使准确率最大化(或保持不变)的路径组合(例如:[执行, …, 跳过, …, 重复, …]) 。

作者使用这个MCTS找到的4000个“最优路径”作为标签 ,通过监督学习的方式来训练那些轻量级的路由器,使其学会模仿MCTS的决策 。

路由器使用窗口池化 (windowed pooling) 来高效处理长序列 ,并使用Focal Loss来解决决策标签极度不平衡的问题(因为“执行”远多于“跳过”和“重复”) 。
$$
\alpha_c = \frac{1 - \beta}{1 - \beta^{n_c}} / \frac{1}{3} \sum_{c’} \frac{1 - \beta}{1 - \beta^{n_{c’}}}, \quad \mathcal{L} = -\frac{1}{L} \sum_{\ell=1}^L \alpha_{y_\ell^\ast} (1 - p_{\ell, y_\ell^\ast})^\gamma \log p_{\ell, y_\ell^\ast}
$$

默认使用$\gamma=2,\beta=0.999$.

实验

红色 (值>1) 表示该层倾向于被“重复”;蓝色 (值<1) 表示倾向于被“跳过”;接近白色的浅蓝 (值≈1) 表示被“执行”。

作者指出,这与先前的论文相似,模型在早期层保持稳定,在中期层节省算力(跳过),并在晚期层(尤其是在困难任务上)投入额外算力(重复)

也许我是色盲,我好像并没有看到红色。

更多阅读

什么?!你跟我说LLM的最后几层都没啥用?你觉得我信吗?——三篇关于LLM层深的工作速通 - 知乎


模型后面的层是否无用?
https://lijianxiong.space/2025/20251106/
作者
LJX
发布于
2025年11月6日
许可协议