Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning

(NeurIPS 2025)

稍微有趣的一篇论文。


信念固化 (Belief Entrenchment)

这篇论文主要研究信念固化 (Belief Entrenchment)这个概念。

研究者发现,大语言模型在进行推理(例如思维链 CoT)时,往往不是根据新证据客观地更新信念,而是系统性地倾向于加强其已有的先验信念 。

如果模型一开始认为某件事是真的,它在推理过程中会倾向于寻找支持该观点的论据,从而变得更加确信,即使缺乏实质性的新证据。这种现象类似于人类认知心理学中的“确认偏误”(Confirmation Bias)。

这种固化会导致模型得出错误的结论,并给用户造成一种毫无根据的自信感(Misleading confidence),阻碍了模型真正的“求真”(Truth-seeking)能力 。

如果我们采取贝叶斯的思想:在理性的贝叶斯更新中,信念的更新方向不应仅由当前的信念决定。

根据鞅性质(Martingale Property),在已知当前信念的情况下,未来信念的期望值应该等于当前信念 。

$$E[\Delta b | b_{prior} = p] = 0, \quad \forall p \in [0,1]$$

定义 设 $\{X_n, n \ge 0\}$ 和 $\{Y_n, n \ge 0\}$ 是随机过程,对任意 $n \ge 0$,$X_n$ 是 $Y_0, Y_1, \dots, Y_n$ 的函数,$E|X_n| < \infty$ 且 $$ E[X_{n+1} | Y_0, \dots, Y_n] = X_n, \quad \forall n \ge 0, \quad (6.2) $$ 则称 $\{X_n\}$ 为关于 $\{Y_n\}$ 的

通俗来讲,如果每次赌博的输赢机会是均等的, 就算赌博策略是依赖于前面的赌博结果, 则赌博也是“公平的”。 因此任何赌博者都不可能将公平的赌博通过改变赌博策略使得赌博变成有利于自己的赌博.

PS:参考北大数院的《应用随机过程》

方法

鞅分数的定义

主要是如何定义鞅分数 (Martingale Score) 。

作者构建了一个线性回归模型。对于每一个推理样本 $i$,需要收集两个数据点:

  1. 先验信念 ($b_{prior, i}$):推理开始时的确信度。
  2. 信念更新量 ($\Delta b_i$):推理结束时的确信度减去开始时的确信度 ($b_{posterior, i} - b_{prior, i}$) 。

建立如下线性回归方程:

$$\Delta b = \beta_{1} \cdot b_{prior} + \beta_0 + \epsilon$$

其中 $\epsilon$ 是误差项。

作者将鞅分数 ($M$) 定义为上述回归方程中斜率系数 $\beta_1$ 的普通最小二乘法(OLS)估计值 $\hat{\beta}_{1}$ 。

公式为:

$$M = \hat{\beta}{1} = \frac{\sum{i=1}^{n}(\Delta b_{i} - \overline{\Delta b})(b_{prior, i} - \overline{b_{prior}})}{\sum_{i=1}^{n}(b_{prior, i} - \overline{b_{prior}})^2}$$

我们得到了M就可以继续分析:

$M > 0$ (正分): 表示存在信念固化。先验信念越高,模型越倾向于正向更新(即 $b_{prior}$ 正向预测 $\Delta b$)。模型倾向于寻找证据支持其最初的观点。

$M \approx 0$ (零分): 表示符合贝叶斯理性。信念更新与先验信念无关,仅取决于新证据。

统计显著性: 通过 t 检验(t-test)判断 $M$ 是否显著异于0。

如何测量 LLM 的信念?

由于大语言模型自我报告的置信度通常未经校准(不可靠),论文采用了一种**“LLM-as-a-Judge”(大模型作为裁判)**的方法来提取信念。

让被测试的模型(如 Llama 4 或 GPT-4o)针对一个问题生成推理过程(例如思维链 CoT 或辩论文本)。

使用一个独立的、能力较强的模型(论文中主要使用 GPT-4o)作为裁判,从第三方的角度评估推理者在不同阶段的确信度 。

  • 提取先验 ($b_{prior}$):裁判仅根据模型生成的最初观点或第一句话,评估其认为该观点为真的概率 。
  • 提取后验 ($b_{posterior}$):裁判根据模型完成整个推理过程后的最终输出,评估其认为该观点为真的概率 。

这一过程在多个领域(如预测市场问题、Reddit 观点改变板块、学术论文评审)的大量问题上重复进行,从而获得足够的样本点 ($n$) 来运行回归分析并计算 $M$ 值。

实验发现

在有标准答案(Ground Truth)的预测任务中,作者发现鞅分数($M$)与 Brier Score呈正相关。即 $M$ 越高(固化越严重),模型的预测准确率越低 。

题外话

让我想起了之前使用ODE来缓解幻觉的那篇论文。


Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning
https://lijianxiong.space/2025/20251214/
作者
LJX
发布于
2025年12月14日
许可协议