Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality
(ICLR 2025)
通过解码注意力因果关系缓解多模态大语言模型中模态先验引起的幻觉。
因果
作者构建了一个因果图,其中:
- $I$:输入图像。
- $A$:注意力机制(分为视觉注意力 $A_i$ 和语言注意力 $A_t$)。
- $O$:模型输出。
- 关键点: 模态先验($P_v$ 和 $P_l$)被视为混淆因子(Confounders)。它们既影响注意力 $A$,也直接影响输出 $O$(即存在后门路径 $A \leftarrow P \rightarrow O$) 。

方法
作者使用了因果推理中的后门调整(Back-door Adjustment) 。
但简单来说,其实就是产生一些非事实的输出。他们设计了四种反事实注意力形式来模拟“无效注意力”。
- Random: 随机采样值 。
- Uniform: 均匀分布值 。
- Reversed: 将注意力权重反转 。
- Shuffled: 打乱空间位置(仅限视觉) 。
- 实验发现 Random 和 Uniform 效果最好,因为它们最接近平均注意力分布,提供了稳定的基准 。
Causal Effect = Total Effect - Pure Confounding Effect
解码策略:
$$t_{next} = \arg\max (\text{Logits}{original} + \gamma \cdot (\text{CausalEffect}{visual} + \text{CausalEffect}_{language}))$$
Causal Effect = Total Effect - Pure Confounding Effect,即正常解码减去前面的反事实注意力。
再加上对比解码常用的自适应可信度约束”(Adaptive Plausibility Constraint)具体为以下。
$$
t_{next,v} = \arg \max_{i} \left( \frac{e^{\max(\ell_i + \gamma((\ell_i - \ell_{cf_v,i})+(\ell_i - \ell_{cf_l,i})) - \log(\epsilon) - \max_j \ell_j, -\infty)}}{\sum_{j} e^{\max(\ell_j + \gamma((\ell_i - \ell_{cf_v,i})+(\ell_i - \ell_{cf_l,i})) - \log(\epsilon) - \max_k \ell_k, -\infty)}} \right).
$$
题外话
CausalMM实际上是没有直接使用SCM或者因果模型,它所谓的反事实注意力的方式采取的方法是比如随机采样,和VCD的对图像加噪是相似的。那VCD这种图像加噪我们是否也可以认为它也是一种视觉输入端的反事实干预?