VISUAL AGENTS AS FAST AND SLOW THINKERS
(ICLR 2025)
同级的sgy之作。(标题看上去有一些梁晓丹老师的味道)。
作者受到诺贝尔奖得主丹尼尔·卡尼曼(Daniel Kahneman)的《思考,快与慢》一书启发。
智能需要区分两种思维模式:
- 系统 1 (快思考): 无意识、自动、直觉性的思考。适用于简单任务(如识别熟人面孔)。
- 系统 2 (慢思考): 有意识、费力、逻辑分析性的思考。适用于复杂推理和决策 。
方法

FAST 引入了三个轻量级的适配器来处理不同层级的推理任务:
切换适配器(Switch Adapter)
Switching-friendly dataset) 针对目标对象推理的负数据集 D 由 100,000 个(图像,问题,答案)三元组构成,旨在促进识别回答问题所需的目标区域或对象。该数据集构建了关于某些对象缺失或细节的问题,这些问题被故意做得太小,以至于视觉编码器无法感知。
责判断是否需要启动慢思考。
- 功能:
- 判断模式: 决定问题是简单(直接回答)还是复杂(需要慢思考)。
- 生成线索: 如果启动慢思考,它会输出两类关键信息:
- 缺失对象 ($\mathcal{O}_{missing}$): 当前视觉信息不足以直接识别的对象。
- 上下文线索 ($\mathcal{C}_{clue}$): 暗示缺失对象可能存在的位置或关联信息。
- 触发条件:
- 不确定性 (Uncertainty): 模型无法直接识别查询中指代的特定对象。
- 不可见性 (Invisibility): 对象太小(例如小于 $20 \times 20$ 像素)或被遮挡,标准视觉编码器无法感知。
提案适配器 (Proposal Adapter)
功能: 接收图像、查询 $Q$ 和上下文线索 $\mathcal{C}_{clue}$,输出与问题相关的感兴趣区域(Region)。
输出形式: 生成目标对象的边界框 (Bounding Boxes,[Bboxes]) 。
层级推理: 它利用 Switch Adapter 提供的线索,将注意力集中在图像的特定部分,而不是全图搜索。
分割适配器 (Seg Adapter)
用于处理像素级细节。
- 功能: 对 Proposal Adapter 提供的边界框区域进行像素级分析 。
- 架构: 使用了 SAM (Segment Anything Model) 的掩码解码器结构 。
- 输出形式: 生成目标的分割掩码 ([Mask]),提供极高精度的视觉证据 。
证据链
(Chain of Evidence) 证据链类似于大型语言模型中的思维链。但在FaST 中,作者将其定义为基于正确证据的越来越深入的思考步骤。证据链的完成需要许多视觉智能体协作完成。

系统将原始图像、问题以及上述所有生成的“证据”(线索、边界框、掩码)汇总。
Visual Sampler (视觉重采样器): 为了处理过长的证据链,系统使用交叉注意力机制将图像 Token 数量从 256 压缩到 32。
最终再次通过 MLLM 生成准确的答案 。
实验
8 张 NVIDIA A100-80GB GPU
复现整个微调(fine-tuning)过程大约需要 15 个 A100 GPU days。
VISUAL AGENTS AS FAST AND SLOW THINKERS
https://lijianxiong.space/2025/20251212/