PerturboLLaVA:通过扰动视觉训练减少多模态幻觉

(ICLR 2025)

两个贡献

当前缺乏一种在概念层面精细衡量描述质量的指标,故有了:

HalFscore:一种新颖的评估指标,旨在从概念层面精细地衡量图像描述的准确性和完整性。

缓解幻觉,故有了:

PerturboLLaVA:一种创新的“扰动式视觉训练”方法。该方法通过在训练过程中引入与图像内容相冲突的、精心设计的误导性文本,来降低模型对其固有语言知识(即“语言先验”)的过度依赖,从而迫使其更加关注视觉输入。

像OPERA和VCD,尽管解码策略具有无需训练的优势,但它们并未解决多模态模型中幻觉的根本原因,因为这些问题源于训练阶段。此外,从实际角度来看,大模型的推理成本通常超过训练成本,因为模型训练一次但部署无数次。

HalFscore

图谱构建:通过 GPT-4o 模型,从文本中提取信息,并将其表示为三元组(triplets),形式为 <实体1, 关系, 实体2> 。例如,“时钟在墙上”可以表示为 (时钟, on, 墙),“镜子是粉色的”可以表示为 (镜子, is, 粉色) 。这些三元组随后被整合成一个图谱,其中实体是节点,关系是边 。
$$
\text{Precision} = \frac{|C_{\text{gen}} \cap C_{\text{gt}}|}{|C_{\text{gen}}|}
= 1 - \frac{|C_{\text{hallucinated}}|}{|C_{\text{gen}}|},
$$

$$
\text{Recall} = \frac{|C_{\text{gen}} \cap C_{\text{gt}}|}{|C_{\text{gt}}|}
= 1 - \frac{|C_{\text{omitted}}|}{|C_{\text{gt}}|}.
$$

最后综合起来得到$\text{HalFscore}$(其实就是F1):

$$
\text{HalFscore} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}.
$$

PerturboLLaVA

为确保扰动的有效性和自然性,遵循以下原则。

  1. 上下文相关性。扰动应与图像内容在上下文上相关,使其看似合理但具有误导性。
  2. 与预训练知识对齐。扰动设计需与常见的语言先验产生共鸣,确保其现实性并反映潜在的模型偏差。
  3. 语义多样性。通过改变$x_p$的结构和主题元素,确保扰动的多样性,使其与常见的误解或偏见保持一致。在实际操作中,使用 GPT-4o 生成扰动文本。GPT-4o 模型会查看图像、问题和答案,并根据世界知识以及某些图像细节,构建强大且多样化的扰动,而不泄露答案。GPT-4的指令提示详见附录。

PerturboLLaVA:通过扰动视觉训练减少多模态幻觉
https://lijianxiong.space/2025/20250908/
作者
LJX
发布于
2025年9月8日
许可协议