ARC Is a Vision Problem

何恺明出品。arxiv 2025。

ARC任务

ARC-AGI（Abstraction and Reasoning Corpus，抽象与推理语料库）是一个专门用于衡量 AI 系统泛化能力和解决新颖任务能力的基准测试，它与传统的基准测试不同，更注重考察 AI 的抽象推理能力，而不是单纯的记忆或模式匹配能力。

ARC-AGI 任务不需要专门的世界知识（例如历史事实）或语言来解决。唯一需要的先验知识是一些核心知识——诸如物体性、基本拓扑、初等整数算术等概念。而这些人类的核心知识已由 Spelke 等人研究并指出这些知识 Prior 在儿童早期（通常在四岁之前）就已获得。

ARC-AGI 任务的另一个重要特征是它们对 AI 系统来说很难，但对人类来说却很容易。

一个示例：

motivation

抽象推理语料库 (Abstraction and Reasoning Corpus, ARC) 挑战虽然常被视为一个语言或符号推理问题，但其本质是视觉的，因此应该从计算机视觉的角度来解决。

方法

将 ARC 任务（从输入 $x$ 到输出 $y$ 的映射）视为一个逐像素分类 (per-pixel classification) 问题，类似于语义分割。

模型目标： 学习一个神经网络 $f_{\theta}$，它以输入图像 $x_i$ 为输入，并以一个表示任务 $T$ 的可学习任务令牌为条件，输出一个网格，其中每个位置代表一个分类分布。

损失函数： 使用逐像素交叉熵损失 (per-pixel cross-entropy loss) 进行优化。

为了引入 2D 空间局部性、平移不变性和尺度不变性等视觉先验，模型采用了以下设计：

画布：

画布具有预定义且足够大的大小。原始输入经过变换后被放置在该画布上。这种设定自然地容纳了平移和尺度增强，这些是视觉领域中引入平移和尺度不变性的常见策略，将画布的背景设置为额外的背景颜色，即第 (C+1) 种颜色。

当应用 ViT 模型时，如果将每个原始像素天真地视为一个 token，那么只会存在 C个不同的 token。相比之下，画布支持更大数量的局部、块级配置。例如，当块大小为 2×2时，单个块可以包含多种颜色（如下面的VIT结构图所示），并且在理论上具有指数级大的基数，O(C2×2)。这种公式对于提升泛化性能至关重要。