Be My Eyes：通过多智能体协作将大型语言模型扩展到新模态

（arxiv 2025）2511.19417

方法

框架由两个主要智能体组成。

感知者代理 (Perceiver Agent)

推理者代理 (Reasoner Agent)

协作流程 (Orchestration)

作者只训练感知者。

分为以下几步：

第一步：问题生成 (Question Generation) 从公开数据集（如CoSyn-400K）中选取图像，利用GPT-4o生成必须依赖视觉信息才能回答的复杂推理题。

第二步：对话生成 (Conversation Generation) 让GPT-4o分饰两角（既是老师感知者，又是推理者），模拟高质量的协作对话。GPT-4o作为“老师感知者”能提供比小模型更精准的视觉描述和指令遵循。

第三步：实例过滤 (Instance Filtering) 剔除那些不需要图像就能回答的问题，以及模拟对话中未能得出正确答案的失败案例。

监督微调 (SFT)： 利用生成的12,145条高质量对话数据，对感知者代理（Perceiver）进行微调。注意，推理者代理（LLM）不需要任何微调 。微调的目标是让感知者学会根据上下文提供有效信息，而不是简单地看图说话。

GPT-4是GPT-4o的文本模态，可以看出性能能超过原始GPT-4o。

移除监督微调（SFT）或限制框架仅支持单轮对话时，性能依旧能最好。

#深度学习 #多模态 #大模型

Be My Eyes：通过多智能体协作将大型语言模型扩展到新模态

https://lijianxiong.space/2025/20251126/

作者

LJX

发布于

2025年11月26日

许可协议