5%>100%-Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks

算是adapter的改进。5%>100%指的是微调(参数只有5%)大于全量。

adapter类架构

adapter:用于NLP

https://arxiv.org/abs/1902.00751

adaptformer:用于CV

https://arxiv.org/abs/2205.13535

论文架构

典型的线性adapter在应用于视觉任务时会遇到两个问题。首先,固定层参数无法微调以匹配新任务的分布,导致传递给adapter的特征分布存在偏差。

作者使 Mona 能够调整输入分布以及来自固定层的输入比例。具体来说,作者在 Mona 的顶部添加了一个范数层和两个可学习权重,以调整输入分布。

结果


5%>100%-Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks
https://lijianxiong.work/2025/20250522/
作者
LJX
发布于
2025年5月22日
许可协议