ICL是低秩更新 ICL (In-Context Learning)是一种在不更新模型参数(即不进行梯度下降或微调)的情况下,通过在输入(即“上下文”)中提供少量示例来指导模型完成特定任务的能力的方法。 2025-08-17 #深度学习
Ecotransformer-无需乘法的注意力机制 (arxiv 2025)2507.20096 众所周知,注意力为$softmax(\frac{QK^T}{\sqrt{D_k}})V$。 2025-08-07 #深度学习
可训练动态掩码稀疏注意力 (arxiv 2025) 《Trainable Dynamic Mask Sparse Attention》 Smalldoge出品,该组织专注于小型语言模型,专注于效率和易用性。 2025-08-05 #深度学习
Attention Sink Attention Sink是指某些(初始)token具有较大的注意力得分。最早明确提出于StreamingLLM (2309.17453)。 2025-07-26 #深度学习
OATS-通过稀疏与低秩分解实现异常值感知的剪枝 (ICLR 2025) 算法OATS假定模型权重$W\approx S+L$,其中S为稀疏,$||S_0||\le k$;L为低秩,$Rank(L)\le r$。 2025-07-24 #深度学习 #大模型